一、 有线宽带运维面临的问题
中国移动用户规模巨大但仍在持续增长,截至到2023年6月份,中国移动有线宽带用户累计达到2.86亿户。伴随用户快速增长,有线宽带的光纤公里数、网元数量、网络拓扑及连接复杂度大幅增加,同时随着互联网新业务的不断出现,网络运维面临诸多重大挑战。
第一,有线宽带网元层级多、无源光线路长、最后1公里不可控因素多;有线宽带跨多个网络域(涉及家庭网络、接入网、城域网、骨干网、省网、传输网、业务平台/内容分发网等。如图1所示)、管理线条多,流程有时依靠人工流转;网元厂家多,未开放标准化的操作接口,很多管理配置还依赖于手工操作。以上导致出现网络质差时,难以自动提前或及时发现问题;发生故障时,缺乏端到端整体分析,需要较多人工处理,排查定位和修复故障的效率低耗费时间长;被动等待投诉后处理,仍存在大量潜在质差用户未得到处理。另外,有线宽带还较易受到天气环境、施工、人为等突发因素影响,以上导致运维工作量极大。
第二,新业务层出不穷,对网络质量要求也越来越高。除上网浏览、网络电视、网上购物、网络社交、长短视频播放、在线游戏外,视频直播、AR/VR、元宇宙等新业务不断涌现。受疫情影响,用户的工作和学习越来越多的依靠在家里或公司通过网络会议和网上课堂的方式进行。这些业务对有线宽带网络质量要求极高(有的带宽甚至会达到Gbps、时延ms级),对网络质差容忍度低,一旦发生网络质量劣化或故障、修复不及时,极易造成用户投诉和满意度下降。
但是,由于单段线路网络质量QoS指标难以完全反映业务端到端的质量情况,QoS与业务质量/用户体验之间并非线性对应关系;不同业务在QoS对用户体验影响敏感性和程度上存在差异;另外业务技术也在基于网络质量情况进行适配演进。因此,面对用户提出的用户体验上的投诉问题,缺乏对用户感知数据的采集,仅基于网络侧QoS指标往往很难追查,用户问题往往被大量的QoS重复告警所湮没。
第三,对于家庭网络和有线接入的企业宽带网络,存在大量非运营商管控的用户终端设备,处于监管盲区。用户满意度受这些用户自有终端的使用情况,以及用户主观行为和习惯的影响。因此,当出现用户粒度质差和投诉时,一大部分问题难以通过网络侧来发现和定位问题,经常需要人工上门处理。
图1有线宽带网络架构
综上,有线宽带网络亟需采集与用户感知相关的质量数据,打开用户内网监管盲区,以更准确更全面地进行用户网络质量问题的发现和诊断;同时,亟需引入智能运维技术,在关键运维环节进行必要的人工替代,以提高运维效率和运维质量。通过对用户业务质量感知的全面掌握和智能手段的充分利用,才能缓解目前有线宽带运维面临的巨大压力,切实提高网络质量,降低被动投诉,提升有线宽带用户满意度。
二、 有线宽带运维的典型需求场景
1、网络故障(质差)的异常发现
(1)上网业务量升降异常发现
当有线宽带某个网元或线路发生故障时,一般都伴随相关业务的用户数或业务访问量发生骤降或波动,如用户上网用户数、上网流量、访问次数等指标(图2),此类异常往往预示着网络发生问题并影响了用户业务正常访问,需被及时发现告警并被核查修复。如果发生故障的业务量指标的时序本身就有一定的周期波动性,则较难通过简单静态阈值方式进行检测。
图2 网络发生问题时导致业务量指标异常
(2)互联网电视质差告警故障发现
基于有线宽带网络的互联网电视业务,如IPTV,其体验质差告警,正常情况下一般由个别用户原因造成,时序一般呈随机分布;而若由某一网元或线路群障造成,则时序呈现出聚集突增情况(图3)。使用静态阈值方法,对不同告警时序模式需设置较多静态阈值,耗费人力且难以管理;业务发生变动时还需重新调整;另外单一静态阈值还容易造成漏警或误警。
图3 网络电视故障时产生质差告警激增
2、网络故障(质差)的根因定位
(1)互联网电视故障根因定位
互联网电视业务质量出现问题,原因涉及通信网络、内容服务器、以及CDN等,或其相互交叉影响造成。由于以上各原因的子维度和节点众多,发生电视卡顿故障时进行根因定位时,面临巨大和复杂的维度搜索空间(图4),仅靠人工逐级定位分析,定位慢耗时长。
图4 互联网电视发生故障时根因定位面临的维度搜索空间
(2)家庭内网质差定位
家庭内网是有线宽带网络的用户侧末梢,运营商不完全管控,是网络运维的难点和痛点。家庭内网质量易受到家庭网关、带宽、用户终端、组网部署方式、第三方路由器、Wi-Fi覆盖和同频干扰、网口/网线连接等多因素的影响,也和用户使用位置和习惯有关。用户常见感知的质差问题现象是“上网慢”“网速不稳定”等。出现以上投诉,由于排障规则复杂和用户差异大,往往依赖装维人员上门,根据专家经验现场分步逐项尝试排查,耗时长效率低成本高。同时装维人员的经验积累慢,相互之间较难得到复用,导致排障技术门槛高。
3、用户上网满意度预测
随着带宽步入千兆,有线宽带用户的上网满意度成为运营商的重要竞争点。若能有效预测用户的不满程度,可以帮助运营商提前发现潜在质差用户,及时采取措施,以避免用户投诉和用户流失。但用户满意度影响因素多,不仅包括各类质量问题,还涉及用户资费、业务差异、感受差异等因素,通过个别指标和阈值进行推断用户满意度,难度较大,还有较多技术问题有待突破。
三、 自智网络技术发展现状
伴随数字经济高速增长,人们生活日益依赖网络,基于网络的各类业务不断涌现,沉浸式用户体验对网络质量的要求也不断提高。运营商的网络覆盖范围、网元数量成倍增加,网络管理复杂度呈指数性增加,以“人工为主”的网络运维体系应对越来越力不从心,亟需在一些关键运维场景引入“智能”手段来实现运营商网络运维的 “提质、增效、降本”。
2019年电信管理论坛TMF成立“自智网络项目”,旨在构建业界领先、端到端网络自动化、智能化的方法,帮助运营商简化业务部署,推动网络Self-X能力(自服务、自发放、自保障)全面提升,为用户提供Zero-X(零等待、零接触、零故障)体验。这为运营商网络运维的智能化转型明晰了目标和实现路径,成为通信行业的发展共识。
中国移动参考TMF自智网络理念,基于自身实际,规划网络运维的数智化转型,加大自动化、智能化能力建设,面向流程定义场景化分级标准,分步迭代提升网络运维自治水平,设定了2025年网络运维自治水平达到L4的整体目标(运维分级见表1)。同时提出“2+5+N”的网管系统总体规划,体系化指导网管系统能力建设,以拉通运维流程,补齐自动化业务配置激活,夯实数据底座,强化端到端业务保障,实现能力复用共享,针对性完善能力短板。
四、 基于用户业务感知的有线宽带智能运维系统
以上章节对有线宽带网络运维当前面临问题,自智网络发展状况等进行介绍。本章基于中国移动“极目云智”系统的实践,提出构建基于用户业务感知的有线宽带智能运维系统的技术方案,希望能为有线宽带网络发展和自智网络水平提升,提供参考。
1、有线宽带智能运维系统技术架构及关键技术
基于用户业务感知的有线宽带智能运维系统,涉及海量的用户业务感知数据的处理,且面向有线宽带智能运维主题,因此具有典型大数据采集、处理和存储流程,以及AI模型学习过程的技术特征。
基于用户业务感知的有线宽带智能运维系统,从架构上可分为四层(图5):业务感知采集层、运维数据服务层、智能运维应用层、智能运维策略层,下面逐层介绍其功能和关键技术。
图5 基于用户业务感知的有线宽带智能运维系统架构
(1)业务感知采集层
业务感知采集层,由相关网元和终端上的业务感知模块组成。这些模块采集网络质量、业务质量和用户体验指标;同时也接受平台管控和配置,可按需按策略进行业务、网络性能监测和拨测。业务感知采集层可周期性或根据条件触发,上报采集加工过的各类指标数据。
(2)运维数据服务层
运维数据服务层,对业务感知采集层上报的大数据,进行计算处理,以数据仓库方式对运维数据进行分层处理、加工和存储,并向智能运维应用层提供面向具体应用场景的主题数据服务。
运维数据仓库主要使用Hive及SQL技术。大数据计算引擎,负责数据仓库的分层加工处理,根据数据处理要求可进行离线计算和实时计算,主要技术有Spark/Spark Streaming和Flink等。
为支持知识图谱技术,还提供以Neo4j为主的图数据库,用于面向运维特定领域知识图谱的知识表示、知识储存和知识查询。
(3)智能运维应用层
在智能运维应用层,运行有各种典型运维场景的智能应用模块,根据具体运维场景需求,从运维数据服务层提取对应主题数据,通过AI算法模型,开展异常检测、根因定位、质差预测等典型运维任务,并将结果上报智能运维策略层。同时在此层,建设有智能算法库(Scikit-Learn、TenforFlow、PyTorch等)、数据特征工程、模型训练环境、样本标记、算法效果评估等模块,以支撑以上具体应用模块的全生命周期运行。
(4)智能运维策略层
智能运维策略层,接收智能运维应用层的运行结果,按运维流程,运行告警派单、策略执行;面向管理人员支持策略编辑、流程编排;同时对派单结果进行回单确认,运维案例积累,并反馈智能运维应用层,形成迭代优化闭环。
3、有线宽带智能运维系统的应用探索
(1)异常检测
异常检测是在时间序列中查找出与预期行为不符的模式。在有线宽带运维场景中,在网络环境稳定、设备运行正常的情况下,网络性能指标应保持稳定,而在发生异常(如突增、突降、抖动)时则往往伴随着网络故障或潜在质差。通过异常检测算法可在网络质量、业务质量或用户感知指标时序中高效快速发现异常问题,减少繁多指标曲线的人工处理成本,以便运维人员或系统做出及时反应,减少甚至不对用户造成影响。
异常检测算法的思路是找出与“正常值”不一样的“异常点”或“异常区段”,主要方法包括:根据统计学原理的算法,如3-Sigma、ARIMA、EWMA、Holt-Winters、Prophet等;为减少大量的手动算法和参数选择,可使用KNN、K-means、LOF、OCSVM、iForest等传统机器学习算法;针对多维指标时序,可尝试利用VAE、GAN、LSTM、CNN技术的Donut、Buzz、Informer等深度学习算法。
对上网业务量升降异常发现问题,可借助能对周期性指标时序序列进行智能检测的算法,如ARIMA、Donut等,通过对指标的历史时序规律的分析,排除周期(如星期、时段)波动性的影响,以更全面更准确地检测出异常,尤其是筛查出隐蔽异常。
对互联网电视质差告警故障发现问题,可基于业务质差告警信息,利用大数据处理技术,形成多维度的时序序列,通过异常检测智能算法,如OCSVM、iForest、Informer等,挖掘历史数据分布规律和模式,区分重要异常与普通告警,自动检测告警异常突增聚集事件,降低调校静态阈值工作量,提升异常发现的查全率和及时性,减少漏警或误警。
(2)根因定位
根因定位在被检测出网络质量、业务质量或用户感知指标异常之后被触发,在指标的多维属性空间中快速定位找出导致异常的属性组合。当发生异常或故障时,根因定位算法能自动准确地推荐出故障根因,从而能指导运维人员去修复或者自动调度系统采取修复措施。目前有线宽带故障排查定位多需要人工经验逐级查找,效率低有效性差。通过根因定位算法替代人工,从而大幅减少修复时间和运维成本,降低用户业务质量下降或业务中断时间,补救提升用户满意度。
根因定位算法的思路是使用高效搜索算法,在众多维度属性组合集中找出对指标异常影响最大、解释性最强、或关联性最强的属性组合。常见的根因定位算法有两类:针对多维指标下钻的HotSpot、iDice、Squeeze等;基于关联规则挖掘机制的有InfoCom、Sigmetrics等算法。
对互联网电视质差故障根因定位问题,可使用大数据对故障时间段内的质差指标进行统计形成多维组合因素的时间序列,测度包括质差维度、测度、时间等信息,然后采取相应根因定位算法,如等,对各因素维度组合的影响度/贡献度进行快速搜索和排序,得出最有可能的根因结果建议。
对于家庭内网的质差定位,知识图谱(Knowledge Graph)是较为有效的一种技术。它以结构化的形式描述客观世界中概念、实体及其关系,提供了一种更好地组织、管理和理解海量信息的能力,是推动机器具有认知智能的关键技术。知识图谱可以分为通用知识图谱(领域无关)和特定领域知识图谱。
网络运维是网络状态数据与专家经验高度结合的领域,只有将故障处理知识与网络状态数据有效结合,通过知识图谱技术,构建一个有知识能推理的“在线运维专家系统”,能更有效辅助故障定位、推理根因,提高一线装维人员效率。
对家庭内网质差分析问题,可基于多类业务感知和网管系统数据,以家庭用户粒度进行数据聚类模式分析,通过人工智能,如概率图、神经网络等算法,对不同家庭网络拓扑(如有无第三方路由器、智能组网)、家庭设备类型及Wi-Fi性能等多种因素与业务质量影响的关联性及因果关系进行建模,形成家庭内网质差定位模型;导入专家经验和排障实例,运用知识图谱等技术,形成装维专家规则库;基于采集的家庭网络用户画像数据,利用装维专家规则库推理家庭内网质差的可能原因和改善建议,逐步积累和提升家庭网络质差智能分析能力,降低一线装维技术门槛。
(3)质差预测
质差预测是根据历史数据情况,预测未来某一时间或区间的质差劣化情况或故障事件。针对重点业务的质差预测,可让运维人员能提前发现用户潜在质差或故障,从而进行提前采取优化或应对措施,把问题消灭在发生之前或减轻影响。主动的异常管理已成为一种提高网络服务稳定性的有效方法。
质差预测的思路是基于历史标记数据,利用分类和回归,对当前时刻的指标值或质差概率进行预测,主要方法有:基于统计学理论的SVR、ARIMA、Holt-Winters、Prophet等算法;基于传统机器学习的LR、SVM、Random Forest、XGBoost、LightGBM等算法;以及基于深度学习的RNN、LSTM、DeepAR、Transformer、Informer、TabNet等。
对用户上网满意度问题,结合网络质量、业务质量、用户感知、用户订购和历史投诉等数据,通过用户画像技术构建与满意度相关的各类用户特征。用户特征作为输入,用户满意度调研结果作为标签,应用机器学习的分类算法模型对用户宽带满意度级别进行预测,以发现潜在不满或质差用户。
五、 总结与展望
中国移动有线宽带运维亟需智能技术来缓解来自用户和业务发展的巨大压力,以实现网络的“提质、增效、降本”,同时提升用户满意度。基于用户业务感知数据,构建有线宽带智能运维系统解决方案,对典型运维场景基于AI算法模型的应用探索,可由点成线再到面,为有线宽带智能运维体系的建设发展提供技术参考和应用指引。
上述解决方案已在异常发现、故障根因定位等典型运维场景进行应用,在部分省公司进行了试点和落地,并初见成效。但全面来看,系统在边缘智能感知增强、新型网管系统建设优化、端到端网管数据分析协同、智能运维场景拓展等方面需要进一步优化完善。愿与业界一起就以上问题加强研究沟通,共同推动技术演进和应用创新,加快有线宽带智能运维技术在中国移动的成熟落地和成效提升。