缩略图

交互式网络故障通知督办探索与应用

作者

刘少林 李良 刘宇 吕博 栾晓玲 龚景超

中国移动通信集团河北有限公司 河北石家庄 050011

摘要:网络是数字化持续发展的坚实根基,也是信息技术融合创新的重要载体。随着电信运营商市场需求的多元化、2/4/5G融合等因素,网络架构日趋复杂,网络规模日趋庞大,网络故障日趋增多,做好故障的通知是保障网络运行平稳的首要任务。本文探索一种交互式通知督办模式,通过通过智能化故障分拣,对高价值故障进行自动化督办和处理过程管控,确保故障有效通知到一线维护人员,有效提升一线运维人员故障处置效率和网络监控人员工作效率,实现IT换人。

关键词:通知督办、交互式、握手、故障过程管控、监控自动化、IT换人

1 引言

随着集中监控的深入推进,强化CDN/集客/家客/电信云/动环/业务平台等专业集中监控能力,优化告警管控、故障定位、联动指挥、闭环质检四方面能力,实现全方位监控提升的要求,结合维护量增加、维护人员减少的现状,传统监控模式已不能满足今后工作的需求,对于创新、高效的故障过程管控系统的需求迫在眉睫。本文旨在研究网络维护域故障交互式通知督办场景,通过IT换人的方式提升整个网络运维的效率,通过更加丰富的故障信息交互手段优化维护人员的故障管理过程,在集中化后维护人员减少的情况下做到故障管控水平提升、整体维护质量提升。二是通过数据库记录、可视化呈现的方式将故障处理过程更加清晰、明确的展示给维护人员,从而使故障的过程管控不是故障处理过程中的负担,而是维护人员的帮手。

2 网络故障通知督办现状及存在的问题

对原有重要故障处理流程做了细致调研后,发现工作环节存在重要信息提示不明显、自动化程度不足、信息交互繁琐等多处不足导致工作效率受到严重影响。原有业务流程监控人员对于影响业务质量或导致业务中断的重要告警没有特殊提醒关注自动支撑手段,这些重要告警通常和级别相对较低的告警一起上报给监控人员关注,并且没有自动联络一线排障人员收集故障处理情况的机制,导致重要告警处理延迟、业务恢复历时较长,存在以下几个问题:

2.1重要告警缺少升级上报提示

传统网管过滤器提供的视图中,虽然可以将监控人员关注的告警信息集中呈现,但是对其中的一些对业务影响更为严重的告警没有甄选区分,使得监控人员不能快速发现关注这类告警反应出的故障情况。

2.2重要告警应有的优先关注处理要求,容易被忽略

按照对业务影响严重程度更高的告警应当优先督办处理的原则,这类告警应该特殊关注,传统网管系统缺少优先提醒处理机制,导致重要告警的处理产生延迟。

2.3重要告警对接责任人自动化程度低

重要告警发生后,监控人员当前联系一线排障人员督办处理的方法,大多仍然是根据告警网元地市、县区等信息找到相关一线维护人员联系方式,通过人工打电话方式进行通知督办,自动化流程优化余地较大。

2.4重要告警处理情况掌握效率低下

在故障处理中,监控人员需要定时人工联系一线排障人员,不断确认、并手工记录当前故障处理情况,缺少重要故障排障处理情况的自动获取能力。

2.5重要告警是否闭环消障过程繁琐

由于告警督办、故障处理情况等工作都由人工发起、收集、记录,导致监控人员要在网管系统与一线排障人员两者间互相确认网元是否消除故障,工作过程繁琐、影响故障闭环判断准确性与及时性。

3 高效网络故障通知督办流程设计

针对上述重要告警督办处理闭环工作的不足,开发并应用了告警督办模块,力求提升监控人员与一线排障人员对重要告警处理的交互效率。

(1)数据整合。完成全专业资源、告警关联,提取告警信息将其对应到县区公司或维护组一线负责人。

(2)业务规则制定。通过可视化页面,灵活快速定制业务规则,包括:关注重要告警范围、督办生效期、督办时限、短信与IVR通知内容等可进行相关设置。

(3)重要告警区分上报。识别提取需要特殊关注的重要告警,在独立明显位置提示监控人员进行关注。

(4)自动短信督办。对于达到督办时限仍未消除的重要告警,系统自动发送短信通知县区或一线负责人处理。

(5)故障处理情况自动收集。县区或一线负责人可通过回复短信的方式反馈当前故障处理情况,系统自动将处理情况与对应重要告警信息整合呈现,省公司监控人员无需人工干预即可及时知晓故障处理进展。

(6)IVR自动升级提醒。如果县区或一线负责人未能及时响应故障自动督办通知,则系统自动发起IVR语音提醒,将直接打电话给相关一线排障人员提醒其及时处理故障。

(7)监控消障闭环。系统整合网管实时告警数据与一线排障人员故障处理进展信息,收到告警状态已经恢复或一线人员反馈故障已消除信息,系统自动更新可视化呈现结果,省公司人员可快速判断故障是否真正完成闭环处理。

4 主要技术创新点

告警督办作为提升重要故障排障效率的主要IT支撑手段,从业务流程梳理伊始便考虑到要贴合生产实际、并符合IT系统建设发展规律的建设原则,最终使得告警督办成为网络维护人员实用、易用的日常运维工具,该系统具有以下创新实践:

(1)告警监控精细化管理

网络监控人员在日常工作中,应该持续关注影响网络质量的告警,但是有一些告警相关故障对业务运行的影响相对其他告警更为严重,监控人员应该及时发现、甄选出这些重要告警,尽快对一线维人员发起排障通知,进而完成后续消障工作。

告警督办提供的定制化视图中,将监控人员需要关注的告警信息集中呈现的基础上,对其中一些影响业务更为严重的告警自动做出选择区分,给出监控人员特殊提醒、提示其及时关注处理,使得监控人员可以快速发现关注这类告警的故障处理情况,对这些严重故障加强关注;从而在故障发现源头上避免遗漏重要故障,提升重要故障的发现关注效率。

(2)自动化智能督办

针对重要故障发生后采用人为进行确认、督办跟踪的低效工作情况,通过系统的自动化智能督办,实现了故障快速自动督办;首先将重要故障与一线排障人员建立联系,更重要的是着力实现了重要故障的相关信息自动通过短信、IVR呼叫措施,及时通知一线排障人员进行处理,整个过程全自动、无需人为参与付出工作量,极大的提升了重要故障的督办效率。

(3)提升省市排障人员交互效率

告警督办支持随时接收并记录一线排障人员反馈的故障处理情况,一线人员可以通过短信方式随时随地将处理情况反馈给省公司监控人员,省公司监控人员通过系统呈现信息,可以直接将网管重要故障、被督办排障人、当前处理进展进行关联呈现,有力的支持信息共享、极大的提升了前后台人员的信息交互效率。

5 应用情况

本文所述技术和系统实施完成后,集中化监控人员的工作方式发生了巨大转变,成果应用后待督办告警能够清晰地呈现在告警督办窗口,是否督办、督办次数、故障阶段性处理进展可实时更新,由于一线维护人员通过短信回复的故障原因、故障进展可实时同步至故障督办建议字段,所以监控人员只需关注督办建议,无需逐个故障进行电话通知,无需对故障进展进行记录,除提升了故障督办效率、加强了故障的过程管控外,更重要的是规避了因监控人员能力、责任心差异而导致的漏督办、漏填写故障进展问题。系统实施完成后负责通知督办人员减少90%,有效通知督办率提升80%以上。

6 结束语

本文提出一种基于交互式/握手方式提升故障通知督办有效性的方法,以IT换人的方式提升通知督办的自动化程度,支撑网络故障及时处理,确保网络运行平稳。本文提出的方法适用于通信、电力、医疗等任何需要有效通知的行业。

参考文献:

[1]荣春阳.计算机网络通信技术故障与处理探索[J].文存阅刊, 2021, 000(029):171.