缩略图
Education and Training

OTN 智能故障管理系统的设计与应用研究

作者

孙仁鑫

中国联合网络通信有限公司盐城市分公司 江苏省 盐城市 224001

1 引言

随着 5G、政企专线等业务的规模化部署,OTN 作为承载网络的核心组成部分,其网络复杂度与业务承载量持续攀升,传统运维模式面临严峻挑战。某运营商数据显示,其 OTN 网络月均故障告警超 15 万次,传统运维依赖人工经验,存在三大核心问题:一是海量告警定位难,专家经验差异导致根因推导准确性不稳定;二是根因分析效率低,单个故障需人工耗时数小时分析,工单重复或缺失现象频发;三是运维模式被动,故障响应滞后,无法提前预警与主动干预 。

在此背景下,研发具备 “实时感知、智能分析、自动闭环” 能力的 OTN 智能故障管理系统,成为解决运维痛点、保障网络可靠性的关键需求。本文基于盐城联通 OTN 智能故障管理试点项目,详细阐述系统设计方案、故障场景适配及应用成效,为 OTN 网络智能化运维提供实践参考。

2 OTN 智能故障管理系统总体方案

OTN 智能故障管理系统以 “全流程自动化、决策智能化” 为核心目标,构建 “故障感知 - 分析 - 定位 - 修复” 的 7 步闭环流程,分为 “故障感知与呈现”(前 4 步)和 “根因分析与修复”(后 3 步)两大阶段,系统架构与流程如图 1。

图 1

2.1 系统核心流程

2.1.1 故障感知与呈现阶段(前 4 步)

1.告警过滤与去噪:通过预设规则过滤闪断告警、震荡告警,剔除无效告警,降低干扰;去噪规则界面支持可视化配置,可标注 U 侧标识、震荡告警标识及告警聚合原因。

2.事件聚合:基于 “业务层次 + 检测点层次” 基础原则,对同一故障引发的告警、性能异常、日志事件进行时空关联聚合,避免重统计。

3.故障生成:将聚合后的事件映射为具体故障,明确故障位置、名称、等级(紧急 / 高 / 中 / 低)及关注 / 忽略标识。

4.故障呈现:在运维界面实时展示故障列表,包含故障 ID、发生时间、相关告警数量、影响业务类型(如 Odupl、OchoduLink)等信息。

2.1.2 根因分析与修复阶段(后 3 步)

1.根因分析:融合告警关联资源知识图谱与 DNN/GCN 算法,挖掘故障传播路径,识别根告警(如放大板脱位告警、光纤 LOS 告警),排除衍生告警干扰。

2.业务影响评估:结合网络拓扑与业务配置数据,分析故障对承载业务的影响范围与程度(如业务中断、性能劣化)。

3.修复方案生成与派单:基于专家规则库生成针对性修复建议,开放 API 对接工单系统(如 EMOS),自动派单至运维人员,实现 “分析 - 修复” 闭环。

2.2 关键技术支撑

1.AI 算法引擎:采用 DNN(深度神经网络)实现告警特征提取,GCN(图卷积网络)挖掘故障传播关系,提升根因识别准确度。

2.知识图谱构建:整合网络拓扑、设备配置、告警关联规则、运维经验,构建 “资源 - 告警 - 故障” 知识图谱,支撑智能推理。

3.时空关联分析:基于时间(告警发生时序)与空间(设备位置、链路连接)维度,聚合同源故障事件,减少告警冗余。

3 运营商七大典型故障场景适配与分析

针对 OTN 网络常见故障,系统重点适配运营商七大典型场景,明确各场景的故障根因、告警衍生关系及定位规则,确保故障精准识别。部分核心场景的详细分析如下表 1、表 2 所示。

3.1 核心故障场景定位规则

表 1 单板与链路类故障场景分析

3.2 故障管理实例展示以 “主光中断” 与 “尾纤中断” 为例,展示系统故障管理流程:

1.主光中断故障(2024-08-27 16:18)

实时监测:系统捕捉到 76004-LYSQ 城域龙泉酒 ZX-OTN9700 设备与 76001-LYSQ 城域煤城 ZX-OTN9700 设备间的 14 条关联告警(如输入光功率越限、OTU 层 BDI 告警)。

根因定位:通过时空关联与故障传播图分析,判定根因为 “城域 - 煤城新村 - SOP1 [0-3-19] 选收输入端口主光中断”。

修复建议:检查网管基准测量设置、排查光纤中断点。

1.尾纤中断故障(2024-08-27 09:13)

故障呈现:定位至 76004-LYSQ 城域龙泉酒 ZX-OTN9700-ODU40C + 设备输出端口与 L4Kx2-5 设备输入端口间尾纤。

业务影响:影响 1 条 Odupl 业务与 1 条 OchoduLink 业务。

历史追溯:关联到该位置当日 09:13-09:35 曾 2 次发生同类故障,辅助运维人员排查潜在隐患(如尾纤接触不良)。

4 系统实现与数据处理流程

OTN 智能故障管理系统基于 UME(统一管理平台)构建,实现 “数据采集 - 预处理 - 分析 - 决策” 的全链路自动化,流程如图 2所示。

4.1 数据采集层采集 OTN 设备全量数据,包括:

配置数据:设备型号、端口参数、网络拓扑;

告警数据:实时告警(LOS、光功率越限等)、历史告警;

日志数据:设备操作日志、故障恢复日志;

性能数据:光功率、信噪比、误码率等指标。

4.2 数据预处理层

1.过滤与去重:剔除无效告警(如闪断告警)、重复日志,降低数据冗余;

2.标准化转换:将不同厂商设备的告警编码、性能指标统一格式,支撑跨设备分析;

3.事件生成:将预处理后的数据映射为 “故障事件”(如 “OTU 板激光器关闭事件”)。

4.3 智能分析层

1.规则关联:应用专家规则(如 “激光器关闭告警 + 非人工关断→激光器故障”)初步筛选根因;

2.AI 模型推理:基于 DNN/GCN 模型与知识图谱,挖掘故障传播关系,识别根告警;

3.业务影响分析:结合业务配置数据,自动评估故障对承载业务的影响范围与等级。

4.4 决策与反馈层

1.故障上报:将故障信息(根因、影响、等级)上报上层网管;

2.工单派发:对接 EMOS 系统,自动生成工单并指派运维人员;

3.修复验证:实时监测故障恢复状态,更新工单闭环信息。

5 创新点与应用成效

5.1 核心创新点

1.告警压缩与故障聚合:通过时空关联与故障传播图合并,告警压缩率超 90%,减少运维人员无效操作;2.智能根因定位:融合专家规则与 AI 算法,根因识别准确度≥90%,替代人工小时级分析;

3.主动运维转型:从 “故障后响应” 转为 “故障前预警 + 故障中快速处理”,业务影响分析周期缩短至 ms 级;4.规则与模型复用:AI 模型(如根告警训练模型)可复用于多局点,降低部署成本。

5.2 应用成效

基于试点项目数据,系统成效如下表 3 所示:

表 3 OTN 智能故障管理系统应用成效

6 结论与展望

OTN 智能故障管理系统通过整合 AI 算法与专家经验,有效解决了传统 OTN 运维的 “定位难、效率低、被动化” 问题,实现了故障管理的 “精准化、自动化、主动化”。试点应用表明,系统在告警压减、根因定位、运维效率等方面成效显著,为 OTN 网络规模化部署后的运维提供了可靠支撑。

未来,系统可进一步优化:一是引入实时流计算技术,提升海量数据处理速度;二是融合数字孪生技术,构建网络虚拟模型,实现故障模拟与预演;三是拓展 AI 模型泛化能力,适配更多厂商设备与新型故障场景,推动 OTN 运维向 “自感知、自分析、自修复” 的自治网络演进。