缩略图
Primary Education

基于大数据的网络事件监控体系研发与应用

作者

李献华

中国移动通信集团新疆有限公司 新疆乌鲁木齐市 830000

一、研究背景

为推动移动网络监控工作从值班值守向自动化智能化提速换挡,持续推动网络监控调度工作提质、增效,新疆移动网络监控以信息可采、环节可视、资源可调、过程可溯为目标,从网络事件能力搭建、监控调度自动化、网络全程可视为立足点,开展基于大数据的网络事件监控体系研发与应用。以大数据分析、AI 能力为基础,快速自动获取故障全景信息,实现网络故障原因的精准定界定位,指导网络维护人员进行故障处理,减少网络故障的业务影响,提升客户语音及数据业务的感知。

二、项目简介

新疆移动网络事件监控通过对全网设备告警、性能异常数据、自动拨测结果、网络运行日志、用户投诉信息、社会舆情等多维度的大数据的聚合分析,将专家经验分析过程转化为场景流程,应用 AI 能力自主开发,设计无线接入网、传输网、数据网、核心网、虚拟化设备、动力与环境专业网络事件关联模型,实现自动识别网络事件,并制定获取、分析各类数据的原子能力,通过对原子能力组合配置预处理分析,对故障原因进行自动、智能的判断,输出事件的定界定位结果,同过对关联告警的解析即智能分析,确定业务影响结果。对当前受特定事件的影响而产生的投诉和舆情信息进行判断,呈现触发告警、关联告警、步骤、定界定位结果、业务影响判断、投诉情况、舆情信息、网元拓扑。形成一个基础(多维数据基础)、两个模型(事件分类模型、事件分级模型)、三个架构(事件全流程架构、事件能力集架构、事件监控管理架构)的网络事件监控体系。最终实现跨专业跨层跨域故障全景管控。

依托孪生技术、自智技术和交互技术,实现从以虚映实、以虚控实、以虚预实到以虚优实的核心网、云网网络精准监测、分析与优化,构建全方位网络保障体系,有效提升网络感知能力,实现网络态势见得全、见得清。

提升本地末端网络的监控及定位能力,建立跨专业拓扑监控呈现作为主要场景推动全网实现,可视化的呈现无线基站及家客 OLT 与本地传输网关联的端到端拓扑,对告警进行图层渲染,直观呈现故障原因、故障点位的信息。

为提升网络故障发生后区公司与各维护单位间的协同效率、整合协调资源、最大限度降低故障处理时长、缩短业务影响时长,建立按照故障专业、级别分类的点到点自动调度能力,将事件全景通过 H5页面,以短信形式快速通知调度至相应的现场处理人员。维护人员快速获取事件相关机房、线路、资源、传输配置、业务影响等信息,改变传统维护模式,将被动问询改为主动推送,对故障快速处置,消除业务影响起到积极作用。

三、技术实现方案

1、系统架构全貌

依托“2+5+N”网管架构,通过微服务层拉通整合跨网管能力和AI中台能力并进行上层应用原子化改造,落地自智网络事件监控应用。

2、事件监控生产关系全景

事件监控是告警监控的升级转型,以事件角度,将各专业单条告警进行跨专业关联串接,对故障识别、定界定位、调度处置、闭环管控等事件监控全流程环节实现 IT 化、可视化、自动化,切实提升故障处理效率。

事件监控体系完全覆盖原告警监控管理范围,支撑故障管控能力迈向新台阶:

转变一:深化跨专业、多维关联故障识别及定界定位,监控人员可获取故障“全景”。

转变二:故障识别及定界定位结论可视化呈现,输出规范化、可 读性强,支撑监控人员判断及调度决策。

转变三:故障识别、故障预处理、定界定位、业务影响判断全流程自动化、智能化执行,监控人员无需人工判断及汇总。

3、云网事件拓扑可视化能力应用

强化全程可视方面,新疆公司强化数据、能力、流程的可视化表达,通过事件拓扑和一屏可视呈现网络局部和全局态势,有效支撑网络事件调度。在骨干网、核心网、云网领域,以空间与网络资源融合的数字孪生技术,将物理世界空间与网络资源融合,实现网络组网结构可视。

在网络资源发生故障时,通过一键定位快速定位设备所在物理位置,查看机房实时情况,结合网络资源拓扑关系快速确认业务影响范围,提升故障处理效率。同时通过多专业全域智能化态势感知,基于感知预测模型和根因定位模型的 AI 能力,通过对多维指标的智能预测识别结果,通过图表呈现网络态势预测情况。

4、本地网事件拓扑可视化能力应用

实现地震、台风、暴雨洪水等自然灾害发生时,可视化的呈现基站 /OLT 与本地传输网关联的端到端拓扑,渲染传输中断、动环停电等告警,直观呈现故障点关联退服事件,内线外线拓扑呈现跳转,方便故障原因判断。事件拓扑信息可回溯呈现,存储历史事件传输中断实况,为故障后分析、故障复盘及故障预测提供基础数据。

5、事件调度能力升级

网络事件流程实现关联数据聚合呈现,运用大数据分析及 AI 算法应用实现事件定界定位及业务影响判断,运用数字孪生及本地网可视化能力,建立重点场景 3D 可视化呈现,本地网 GIS 地图呈现,其他场景逻辑拓扑呈现的拓扑呈现能力。以上数据信息及拓扑能力,需实时送达维护一线辅助维护指导,使事件监控能力在实践中见实效。新疆移动监控主要通过自动H5 短信、IVR 调度及网络事件工单实现。

结合省内实际,遵照“分级调度、属地处置、协同作战”原则,建立网络故障分级调度体系,建立能够按照故障专业分类、级别分类,直达维护末端(区公司维护部门及地市区县维护)人员的点到点自动调度能力,调度内容,H5 页面呈现内容及调度人员均可前台灵活配置,极大的便利了区监控及地市日常使用。

事件调度根据事件的重要性和业务影响情况,自动发起事件调度,实时判断事件恢复情况,既定事件未恢复,升级督办至相应升级督办组,直至事件恢复业务影响消除。

四、应用情况

依托网络事件监控转型,新疆移动监控实现故障自动发现、自动识别、智能预处理、一键处置、业务恢复验证、故障一体化调度、故障自动派单等故障全流程的自动化、智能化、可视化,提升故障发现和处置效率,

通过网络事件体系成果的应用,故障定界定位时长由 12 分钟缩短至 5 分钟以内。信息全面,可扩展性强,故障处理时长平均缩短16 分钟,维护效率提升明显。

多专业多系统的信息聚合呈现,极大的提升了网络应急处置能力,提升地震、洪涝等自然灾害的应急响应能力,提升各维护单位间的协同效率。

五、小结

该项目提升了网络监控领域的数智化能水平,是新质生产力行业应用的样例,在项目应用过程中达到了向技术要效益,向管理要效益的目标,在后续工作的推进中将进一步提升网络监控工作的数值化能力。

参考文献:

[1] 宋强 . 基于大数据分析的通信网络监控体系研究 [J]. 信息技术与信息化 ,2019,(10):128-130.

[2] 万小村 . 基于大数据环境下的通信网络监控体系探讨 [J]. 中国新通信 ,2020,22(12):24.

[3] 闵祥晖 . 构建大模型 AI 智能运维平台提升网络监控效能 [J].网络安全和信息化 ,2024,(12):55-57.

作者简介: 李献华 (1982 年-) ,女,汉,吉林省,本科,网络维护、数据分析方向。