某日,\"GS1 出现 “WSS INTERCARD COMM LOSS”、 “MSF NODE [SOLATED”、“WSS LENKA COMM LOSS\"告 警。监控现场值班专家登录设备査看媒体网关主备用控制板 卡状态均为unknow状态,而非正常的active状态,且无法进 行切换。观察该媒体网关中继电路占用情况,发现仍有占用, 但占用数怏速减少。联系测试,该端局下用户已经无法拨打 电话。根据告警、设备状态情况以及拨测情况,可以确定该端局 的媒体网关已经退服,影响该MGW下用户的通信。3.2定位原因Me接口使用VRRP实现路由冗余保护,CE间不配置直
H.248。阿尔卡特MSC server与MGW各自连接主备交换机叫
然后通过CE连接。MSC server与MGW的主备交换机均采 用双机冗余技术,利用VRRP协议实现冗余链路的可靠切换叫 当主设备出现故障时,由备机提供服务,从而保证网络的可靠 性、稳定性和连续性叫组网情况介绍:MSC server与媒体网关之间通过CE连接,媒体网关控制 板卡称为CM板卡,MSC server和媒体网关所便用的交换机连二层网络连接,VRRP的心跳探测(hell。)包通过架内两个 CISCO 2950传递;正常情况下CE1与COSCO2950_A互联的 接口为VRRP的active接口,即WMG发送的所有Me接口消 息均需通过CISCO2950_A转发到CE1然后路由到WSS。CM板卡(WMG的主控板卡)为]+ 1保护,且每块CM 板卡上分别有两个网络接口分别连接架内两台CISCO 2950 实现双链路保护,CM板卡启动时通过向本地网关发送ARP 包确定选用哪个网络接口进行通信,如11s后未收到响应则切 换到另一个接口进行尝试,收到响应的接口变为主用接口,停 止本地端口选择操作;排查故障时,从WSS侧向WMG侧尝试ping包,发现CE 可成功响应ping包,但CISCO2950无法响应,据此判断问题 出现在CISCO2950上。通过WMG日志发现CM板卡分别 尝试通过与两台CISCO2950互联的网络接口进行通信,但均 失败。考虑到VRRP的工作状态(CE1侧为主用),及如上CM 板卡工作原理,判定故障点为CISCO2950_A°3.3业务紧急恢复措施CISCO 2950和CE间采用VRRP,故障发生时2950A为
主用,正常状态下2950转发广播包/多播包和单播包,故障发 生后2950A可正常转发广播/多播包但无法正常转发单播包, 从而导致VRRP不发生切换CE1仍为主用.鉴于此情况采取 强制措施,使CE切换。将故障媒体网关的CISCO 2950A到 CE的网线拔出,这时在MSC server侧成功ping通故障媒体 网关的 CISCO 2950B。重启媒体网关主控板卡CM,并登录、检査板卡状态正常。 拨打测试验证业务已经恢复。179信息通信3.4进一步排查为进一步确认CISCO 2950A故障,当天晚上通过PC 机直连CISCO 2950A端口方式收包,确认了 CISCO 2950A
无法转发包。更换CISCO 2950A硬件后,装载数据后状态
正常,之后切换为主用;将媒体网关控制板卡的备用板卡插
入,并切换为主用后,进行拨打测试验证主备用侧均已正常
工作。4 LACP+VRRP共同使用彻底解决问题该问题暴露的隐患是:如果网络中的节点再次发生类似
问题,即网络交换机端口状态正常,心跳消息仍然可以转发, 但是业务包都无法转发的情况,这种情况VRRP不会作用,IP
节点也就不会切换,所以故障无法避免,现网存在隐患。为此 必须釆用相关的机制确保主备节点的可靠倒换。而且通信网
络必须确保业务流的正常转发。业务流阻断时网络应该发生
切换确保通信有效。为了提高核心网网络的可靠性,避免再次出现由于网络
设备工作异常而导致的通信业务中断,充分分析故障原因及
现场网络结构后提出了优化方案。该优化方案的具体方法为 在CISCO 2950和CE间互连线上增加动态链路汇聚(link ag
gregation) 配置,通过LACP的周期性发送LACPDU (Link Aggregation Control Protocol Data Unit,链路汇聚控制协议数据
单元)的特点检测两端设备及设备之间链路工作状态,如有异
常通过LACP断开相应网络连接触发网络倒换实现故障冗余 保护叫4.1实现原理在CISCO 2950和CE(7750SR)互连链路上配置动态link
aggregation,通过 LACP 的周期性发送 LACPDU(Link Aggregation Control Protocol Data Unit,链路汇聚控制协议数据单元) 的特点检测两端设备及设备间链路工作状态。按照LACP规范(IEEE802.3ad),发起端根据参数peri-
odic_timer 的配置周期性发送 LACPDU 桢(periodic_timer 可
配置为 Fast Periodic Time 或 Slow Periodic Time,分别对应
Is或30s),接收侧监测LACPDU的接收状况,如在一个时间
周期(LACP_Timeout)内未接收到对端发送的LACPDU桢则
判断相应接口因LACP协商失败而退出服务(LACP_Timerout 可配置为 Short_Timeout_Time 或 Long_Timeout_Time,分别对
应3s和90s),从而触发VRRP的切换和网络冗余保护,避免
类似故障再次发生。4.2实验室验证机房通过debug all模式使2950的CPU占用出现过载的
情况以及手动清空2950的缓存,模拟出极限情况导致2950出 现故障,在2950和7750之间启用了 LACP的情况下,设备可 以及时倒换(1秒-4秒以内),通信未受影响。4.3现网测试验证实验室验证完成后,对现网局的媒体网关的CISCO 2950
启用了 LACP协议。分别收取了实施前和实施后,相同时段
CISCO2950设备的CPU负荷、内存占用及流量。以评估LACP 180孙国锋:基于VRRP+LACP高可靠性网络设计与实现对设备负荷的影响。因为电信业务是走在MASTER VRRP路由上,也就是
CISCO 2950A上,相对于电信业务流量来说,LACP协议启
用后增加的流量要小的多。因此,此次评估根据CISCO
2950B的负荷及流量变化情况来评估LACP协议启用后对 设备负荷的影响,可以避免受到电信业务流量变化的影响, 就单纯评估LACP协议对设备的影响来说,这样可以使评估
结果更加精确。本文从实施前后CPU负荷、内存以及流量变化来评估
改造以后是否对现网有影响。LACP协议启用后对整体的
CPU负荷基本没有影响,其中,LACP协议增加的CPU负荷
为0.05%至0.06%之间。对设备的安全运行没有影响。2950
设备整体内存占用增加了不到0.3%;对设备的安全运行没
有影响。设备发的流量增加约为300bytes/sec,收到的流量 没有变化。CISCO2950网口速率为100Mbytes/sec,因此增
加的300bytes/sec可以忽略。对设备的安全运行没有任何 影响。实施前后交换机cpu负荷对比如下图:实篇前实为后System5 seconds1 minute5 minutes5 seconds1 minute5 minutesCISCO2950A4%/0%2%2%0.00%0.04%0.05%CISCO2950B1%1%0.16%0.07%0.06%图4实施前后交换机cpu负荷对比图实施前后交换机内存对比如下图:System实施前内存实施后内存CISCO295OA巧15.6%CISCO295OB巧.2巧.5%图2实施前后交换机内存对比图实施前后交换机流量对比如下图:System实施前流量
实施后流量
CISCO295O A100M bytes/sec增加 300bytes/sec实施前后交换机流量对比图5结语本文除了通过更换硬件的办法解决了媒体网关退服故
障,还通过LACP的周期性发送LACPDU的特点检测两端
设备及设备之间链路工作状态,如有异常通过LACP断开相 应网络连接触发网络倒换实现故障冗余保护。即避免了单 独使用VRRP不支持切换的情况,也避免了 LACP协议只能 够检测两端设备及设备间链路工作状态而无法起到切换的
作用。结合两种技术彻底解决了现网存在的安全隐患,而且
这种解决方案经过验证,对现网交换机设备的内存、负荷影
响几乎为零。参考文献:[1] 赏海燕.软交换核心网双路由中断业务保护方案的研究
与应用[D].北京邮电大学,2009.[2] 俞淮.冗余链路的可靠性研究与实现[J].计算机时代,2018.[3] 张文川.使用VRRP技术提髙网络的可靠性[J].软件工程,
2017.[4] 郑涛,郭裕顺.基于LACP协议的链路聚合状态机模块的
实现[J].计算机系统应用,2010.
因篇幅问题不能全部显示,请点此查看更多更全内容