缩略图
Primary Education

关于华为NCE-IP 网管配置优化的研究

作者

张旭扬

上海华东民航通信网络发展有限公司 上海 200050

0 引言

当前转报用户将 TDM 数据网作为报文传输的主要链路,但是 自 2023 年 初 华 为 NCE-IP 网 管 软 件 升 级 后( 当 前 版 本:V100R022C00SPC100),地区空管站的转报业务有时会出现异常。于是我方联合华为技术人员针对这一现象展开调查,结合 TDM 数据网网络结构以及NCE-IP 网管流量的特性分析导致转报业务异常的原因,旨在将该问题彻底闭环。

1.TDM 数据网网络结构及转报业务特点

1.1TDM 数据网结构

TDM 数据网是一个双星型的网络,划分为核心层、汇聚层和接入层,主要承载转报、雷达及语音业务,是华东地区主要的地面传输网络之一。核心层和汇聚层设备主要为华为 NE20E-S8 路由器;接入层设备主用为华为 AR3260 路由器。核心节点至虹桥汇聚节点的中继带宽为 64M;核心节点至地区空管站汇聚层节点及汇聚层节点至当地接入层节点中继和当地接入层节点间互连中继带宽均为 4M,节点间通过 ISIS 协议建立路由。主要覆盖华东地区各空管分局(站)、雷达站及中小机场。

2. 华为NCE-IP 网管结构及业务流量特点

图 1 NCE-IP 网管及业务结构

如图 1 所示,以虹桥侧网管系统为例,网管服务器与网管交换机之间共有四条网线连接。两条标红连线进行软件捆绑形成一条逻辑上的心跳线;两条标蓝连线进行软件捆绑形成一条逻辑上的通信线。

华为技术支持通过对网管流量实时监控后发现,主备网管之间的业务维护链路每晚的 24 点至 2 点会存在 4Mbit 以内的流量突发,通过与华为研发沟通确认,研发答复如下:备用站点之间备份参数配置了主 + 备的形式,所以每天晚上主备站点之间会通过该 IP 地址进行网管微服务日志的备份,以便可以达到对网管日志保存7 天的目的。

3. 华为NCE-IP 网管导致转报业务异常原因分析

通过检查地区空管站各台接入层路由器以太网端口的历史输出峰值发现,地区空管站各接入节点的以太网端口中继带宽速率最大值平均都在 4Mbit/s 左右,(将汇聚至核心的中继带宽占满),结合我方给各个地区空管站所开放的网管权限仅为查看,不可操作来看,我方怀疑地区空管站在登录华为 NCE-IP 网管时所造成的突发流量是可能导致转报业务异常的原因。

3.1 异常情况 I :我方发至单个分局站的零星漏报

我方请温州配合测试,当温州分别使用数据网账号和语音网的账号登录数据网终端时,ZSWZ-KG-JR-AR3260-TD01(转报业务所在的节点)的 G0/0/0 出现了明显的流量波峰,最大流出速率达到了4.020M/s,已超过中继本身的带宽。与此同时,转报前台超级终端告警 ;SVC QTA NOSOM SWC7119(我方发至温州流水号为 7119 的电报无报头)、SVC QTA OGN SWC8640 CORRUPT(我方发至温州流水号为8640 的电报发电地址行缺失)。

3.2 异常情况Ⅱ:我方发至多个分局站的大面积漏报

另外,经过对网管后台配置的检查发现,自今年 1 月 12 日 18:15起存在一个每 2160 个小时(90 天)的定时备份任务。该备份主要是对操作系统、应用程序等内容进行主备网管服务器之间的备份。按照该频率推算可得 4 月 12 日、7 月 12 日、10 月 9 日均发生过主备网管服务器之间的数据备份。在上述时间点都发生过我方发至多个分局站的大面积漏报,该备份任务流量大且持续时间长,流量最高峰值为中继带宽本身,最长要持续15 个小时。

综上所述,TDM 数据网内的转报业务异常可以分为两类:第一种是分局站登录网管的瞬时峰值导致该分局站的零星漏报;第二种是每90 天主备网管服务器的数据同步导致的多个用户大面积漏报。

4. 制定解决方案

4.1 对网管流量限速

对网内流量进行评估后通过 QoS 相关命令对出入方向的接口进行限速,对流量规格进行监督以限制流量及其资源使用,防止 NCE-IP网管流量影响到网内其他业务。

网管的限速主要分成两个方面:一方面是对 TDM 数据网虹桥汇聚、青浦核心连接网管交换机的以太网端口进行限速(30Mbit/s);另一方面是对分局站航管楼接入节点的以太网端口进行限速。

这样做的成本相对来说很低而且能有效防止网管流量影响到实际业务,但用户反馈登录网管加载的时间会变长,使用网管时也会更加不流畅。

4.2 对中继进行扩容

该方案主要针对第一种故障现象,由于网管服务器下发数据到网管客户端的最大流量是在 4M 左右,因此我们可以对各个地区空管站的汇聚至核心、汇聚至接入的中继进行扩容,增加中继带宽的总流量。这样做的优点在于能在不影响网内业务及网管使用的情况下一劳永逸的解决问题,但缺点在于成本过高。

4.3 带外网管部署

为进一步减少网管流量对业务的影响,后续建议将青浦侧主用网管服务器和虹桥侧备用网管服务器之间的通信链路以及分局站的网管进行带外独立部署,采用 EVPL 的方式,各个地区空管站的网管终端通过该中继汇总至网管交换机,尽量减少 TDM 数据网中网管的流量。另外,TDM 数据网和 TDM 语音网可以共用一个账号。该账号通过上述带外中继访问网管,在操作权限上规定用户对于 TDM 语音网既可操作也可监控,对 TDM 数据网不可操作,只可监控。这样一来,能同时满足 TDM 数据网和 TDM 语音网对网管的要求,且不会对两张网内的业务造成影响。

4.4 网管服务器合并

由于目前网内存在多条路由策略配置,易对网内业务造成不良影响,因此我提议将虹桥网管服务器搬迁至青浦。

这样一来,在单台网管服务器和网管交换机故障时,TDM 数据网和 TDM 语音网的网管业务均不受影响;心跳线可以通过本地级联,不再需要通过运营商链路,主备服务器之间的通信速度也会变快。最重要的是能降低网内路由配置复杂度,有效降低运维难度,方便统一管理。

5 总结华为 NCE-IP 网管流量特性

NCE-IP 网管的突发流量对业务有主要影响的有以下两种:

通过数据同步线进行的每 90 天的主备网管服务器备份任务属于全量备份,且该数据流量会将当前中继带宽占满。在执行备份任务时会导致该中继带宽随机瞬时的链路拥塞从而引起大面积漏报。因此建议带外部署。

网管服务器向地区空管站客户端传输对应拓扑信息等相关数据会存在瞬时流量峰值,单个客户端与网管服务器之间带宽需求根据华为给出的产品资料说明及我方进行的测试得知大约在 4Mbit/s 左右,(与地区空管站汇聚至接入中继带宽相同)从而引起我方发至分局站的零星漏报。该情况目前通过配置路由策略来限速从而保证业务正常。但会对分局站使用网管造成影响,因此同样建议带外部署。

参考文献

[1] 华 为 技 术 有 限 公 司.AR100 & AR150 & AR160 & AR200& AR50 & AR510 & AR1200 & AR2200 & AR3260 产 品 文 档.ICSLite23.2301.2.

[2] 华为技术有限公司.华东空管局报文业务丢包问题分析报告2023-10-18.

作者简介:张旭扬(1997 年9 月),男,人,助理工程师,本科华为NCE-IP 网管配置