江苏移动与华为联合研发的智能故障治理平台实现9个月稳定运行,标志着基于大模型的云原生运维技术完成从实验室验证到生产部署的关键跨越。该平台通过跨模态数据融合治理,构建"大模型推理决策+小模型异常检测"的双引擎架构,系统性重构故障处置全流程。经生产验证,其智能诊断准确率提升显著,MTTR缩短37%(同比降17分钟),形成"数据治理-智能诊断-知识反哺"的增强闭环,为复杂系统故障治理提供可工程化复制的AI转型路径。
一、故障处理困境:
. 多云架构日均产生亿级运维数据,分散在监控大盘、调用链等异构平台,传统固定规则难以识别指标毛刺类隐患,人工监控需高频切换界面进行数据交叉验证,存在故障发现延迟。
. 由于多代异构技术形成的超复杂的动态连接,故障传播路径冗长,分层逐个定位的运维方法效率低下,故障定位时长难以有效收敛;
. 非结构化故障报告缺乏可复现性,人工维护的知识库更新滞后且复用率不足,叠加人员流动影响,经验传承形成断层。
二、破局之道:
针对上述痛点,以"构建故障全生命周期治理能力"为目标,通过多源运维数据融合、异常指标权重拟合、大模型根因推理等技术突破,打造覆盖故障感知-诊断-归档-经验复用的闭环体系。
总体方案:构建覆盖故障全生命周期的智能化运维体系
1、 事前通过标准化数据治理,建立统一运维数据模型,实现跨系统(日志/指标/追踪)数据的采集、汇聚与管理,夯实分析底座;
2、 事中聚焦用户体验革新,打造低门槛感知诊断工具,运用AI算法关联多源数据,将复杂指标翻译为可视化的系统健康评分并自动完成根因定位,使新手可5分钟内完成故障处置;
3、 事后建立故障资产闭环,将案例归档融入到故障处理流程中,数字化且结构化的故障数据(如故障指标,案例报告,故障图谱)反哺到故障发现和诊断能力的提升。
最终形成数据治理-智能诊断-知识反哺的增强式运维飞轮。
创新点1:基于多维度系统健康度量化评估模型,构建系统健康曲线,实现全层级系统异常实时感知与可视化
构建统一指标智能分析能力,通过动态阈值、短长时差分,机器学习等方法对多种不同类型的指标数据进行多维度的健康分析,识别关键异常指标,通过指标归一化及权重计算形成一条系统健康曲线,直观感知系统综合异常。
基于历史案例数据的多维度指标特征归一化处理与动态加权策略,构建具有时序特征工程的机器学习训练集,通过集成学习框架完成模型训练后,结合实时采集的多源监测数据,运用训练完成的分类模型进行在线特征匹配与模式识别,实现实时指标与历史案例库的相似度匹配,通过指标特征权重计算系统健康指数。
与传统的多平台轮巡收集离散指标监测的方式相比,运维人员只需通过观察心跳曲线即可全面感知系统各层级的故障情况。
创新点2:基于大模型的智能诊断与恢复推荐,实现故障根因推理与快速恢复
通过知识图谱与检索增强生成的协同架构,构建基于大模型的故障诊断智能体,当系统检测到异常指标(如API延迟突增)时,首先从向量化指标库中检索指标定义(如数据库连接池耗尽指标),同时通过知识图谱关联指标传播链信息(如该API依赖的应用、数据库节点),将检索到的指标信息注入大模型上下文;大模型基于检索增强的上下文,结合幻觉抑制技术,生成概率化根因结论,如OB主库CPU高导致接口查询阻塞,并自动完成自然语言故障诊断报告的输出,支撑5分钟故障定位目标达成。
发生故障时,运维人员只需点击诊断按钮,系统即可通过AI算法快速抓取关键异常指标,并利用大语言模型(LLM)检索故障传播图谱和运维知识库生成上下文信息,最终形成结构化的诊断报告与恢复预案。
创新点3:基于案例积累,数据飞轮驱动的持续演进机制
通过持续收集和沉淀生产系统中的故障案例,系统能够自动生成高质量的训练数据集,并周期性迭代升级模型,同时将故障资产归档融入故障处置流程中,持续完善指标知识库,知识图谱,案例等数据。这一过程形成了数据积累-模型优化-能力提升的正向循环,这种自我演进的能力使得系统能够适应复杂多变的运维环境,为故障治理平台的数智化能力提升提供了可持续的动力。
三、落地成效:
. 应用于多个核心系统,自动完成故障诊断300+次,支撑48次新业务支付上线以及20多次重大割接;
. 故障感知准确率98%,保障秒级发现故障;
. 故障诊断准确率从30%提升至73%,大幅降低专家依赖度;
. 1-5-10指标(1分钟故障发现,5分钟定位,10分钟恢复)达标率82%,MTTR(故障平均恢复时长)同比去年缩短17分钟;
四、未来展望:
目前,已与多家单位深入合作,推动AI运维体系在南通等地的试点应用。未来,将持续深化技术应用,通过标准化能力输出,为更多行业场景提供可复用的智能运维范式,推动行业拥抱数智化未来。