您的当前位置:首页基于VRRP+LACP高可靠性网络设计与实现

基于VRRP+LACP高可靠性网络设计与实现

来源:乌哈旅游
2019年第5期信息通信INFORMATION & COMMUNICATIONS2019(Sum. No 197)(总第197期)基于VRRP+LACP高可靠性网络设计与实现孙国锋(中国移动通信集团山西有限公司网络部,山西太原030009)摘要:为了提升网络的可靠,性和稳定性,本文■提出VRRP及LACP协议的联合应用的新思路,解决了阿尔卡特软交 换所属IP网络VRRP只检测心跳但不能检测业务包是否正常转发的隐患,解决了网络检测广播、多播、单播任意一 种网络包是否正常转发的问题,并在故障时能够及时启动安全切换,确保网络的稳定运舒,让客户获得高可靠的网 络业务体验。关键词:VRRP ;LACP; Me接口;LACPDU;网络稳定运行中图分类号:TP393.06 文献标识码:A 文章编号:1673-1131(2019)05-0179-021背景3 VRRP失效,无法切换原因分析3.1故障现象随着通信技术的不断发展,通信已经成为重要的经济支 撑行业,已经渗透到生产、生或的方方面面,通信无所不在。 这时网络的稳定运行就显得非常重要,任何网络故障都可能 会导致非常严重的后果,对工业生产、人民生活造成非常大的 影响。本文针对阿尔卡特软交换Me接口中,cisco交换机故障 但是VRRP没有正常切换的问题进行分析、研究,发现现网单 独应用VRRP协议,只能检测心跳而不检测业务包转发成功 与否,如果出现心跳检测正常而不能转发业务包时,设备不能 及时、准确发生切换,进而导致MSC server与MGW的断连引 起的重大通信故障。毘后结合现网情况采用VRRP和LACP 结合的方式,扬长避短,而将二者结合,确能够完全满足网络 安全倒换的需求。2组网情况简介Me接口是MSC server和MGW之间的接口,接口协议是

某日,\"GS1 出现 “WSS INTERCARD COMM LOSS”、 “MSF NODE [SOLATED”、“WSS LENKA COMM LOSS\"告 警。监控现场值班专家登录设备査看媒体网关主备用控制板 卡状态均为unknow状态,而非正常的active状态,且无法进 行切换。观察该媒体网关中继电路占用情况,发现仍有占用, 但占用数怏速减少。联系测试,该端局下用户已经无法拨打 电话。根据告警、设备状态情况以及拨测情况,可以确定该端局 的媒体网关已经退服,影响该MGW下用户的通信。3.2定位原因Me接口使用VRRP实现路由冗余保护,CE间不配置直

H.248。阿尔卡特MSC server与MGW各自连接主备交换机叫

然后通过CE连接。MSC server与MGW的主备交换机均采 用双机冗余技术,利用VRRP协议实现冗余链路的可靠切换叫 当主设备出现故障时,由备机提供服务,从而保证网络的可靠 性、稳定性和连续性叫组网情况介绍:MSC server与媒体网关之间通过CE连接,媒体网关控制 板卡称为CM板卡,MSC server和媒体网关所便用的交换机连二层网络连接,VRRP的心跳探测(hell。)包通过架内两个 CISCO 2950传递;正常情况下CE1与COSCO2950_A互联的 接口为VRRP的active接口,即WMG发送的所有Me接口消 息均需通过CISCO2950_A转发到CE1然后路由到WSS。CM板卡(WMG的主控板卡)为]+ 1保护,且每块CM 板卡上分别有两个网络接口分别连接架内两台CISCO 2950 实现双链路保护,CM板卡启动时通过向本地网关发送ARP 包确定选用哪个网络接口进行通信,如11s后未收到响应则切 换到另一个接口进行尝试,收到响应的接口变为主用接口,停 止本地端口选择操作;排查故障时,从WSS侧向WMG侧尝试ping包,发现CE 可成功响应ping包,但CISCO2950无法响应,据此判断问题 出现在CISCO2950上。通过WMG日志发现CM板卡分别 尝试通过与两台CISCO2950互联的网络接口进行通信,但均 失败。考虑到VRRP的工作状态(CE1侧为主用),及如上CM 板卡工作原理,判定故障点为CISCO2950_A°3.3业务紧急恢复措施CISCO 2950和CE间采用VRRP,故障发生时2950A为

主用,正常状态下2950转发广播包/多播包和单播包,故障发 生后2950A可正常转发广播/多播包但无法正常转发单播包, 从而导致VRRP不发生切换CE1仍为主用.鉴于此情况采取 强制措施,使CE切换。将故障媒体网关的CISCO 2950A到 CE的网线拔出,这时在MSC server侧成功ping通故障媒体 网关的 CISCO 2950B。重启媒体网关主控板卡CM,并登录、检査板卡状态正常。 拨打测试验证业务已经恢复。179信息通信3.4进一步排查为进一步确认CISCO 2950A故障,当天晚上通过PC 机直连CISCO 2950A端口方式收包,确认了 CISCO 2950A

无法转发包。更换CISCO 2950A硬件后,装载数据后状态

正常,之后切换为主用;将媒体网关控制板卡的备用板卡插

入,并切换为主用后,进行拨打测试验证主备用侧均已正常

工作。4 LACP+VRRP共同使用彻底解决问题该问题暴露的隐患是:如果网络中的节点再次发生类似

问题,即网络交换机端口状态正常,心跳消息仍然可以转发, 但是业务包都无法转发的情况,这种情况VRRP不会作用,IP

节点也就不会切换,所以故障无法避免,现网存在隐患。为此 必须釆用相关的机制确保主备节点的可靠倒换。而且通信网

络必须确保业务流的正常转发。业务流阻断时网络应该发生

切换确保通信有效。为了提高核心网网络的可靠性,避免再次出现由于网络

设备工作异常而导致的通信业务中断,充分分析故障原因及

现场网络结构后提出了优化方案。该优化方案的具体方法为 在CISCO 2950和CE间互连线上增加动态链路汇聚(link ag­

gregation) 配置,通过LACP的周期性发送LACPDU (Link Ag­gregation Control Protocol Data Unit,链路汇聚控制协议数据

单元)的特点检测两端设备及设备之间链路工作状态,如有异

常通过LACP断开相应网络连接触发网络倒换实现故障冗余 保护叫4.1实现原理在CISCO 2950和CE(7750SR)互连链路上配置动态link

aggregation,通过 LACP 的周期性发送 LACPDU(Link Aggre­gation Control Protocol Data Unit,链路汇聚控制协议数据单元) 的特点检测两端设备及设备间链路工作状态。按照LACP规范(IEEE802.3ad),发起端根据参数peri-

odic_timer 的配置周期性发送 LACPDU 桢(periodic_timer 可

配置为 Fast Periodic Time 或 Slow Periodic Time,分别对应

Is或30s),接收侧监测LACPDU的接收状况,如在一个时间

周期(LACP_Timeout)内未接收到对端发送的LACPDU桢则

判断相应接口因LACP协商失败而退出服务(LACP_Timerout 可配置为 Short_Timeout_Time 或 Long_Timeout_Time,分别对

应3s和90s),从而触发VRRP的切换和网络冗余保护,避免

类似故障再次发生。4.2实验室验证机房通过debug all模式使2950的CPU占用出现过载的

情况以及手动清空2950的缓存,模拟出极限情况导致2950出 现故障,在2950和7750之间启用了 LACP的情况下,设备可 以及时倒换(1秒-4秒以内),通信未受影响。4.3现网测试验证实验室验证完成后,对现网局的媒体网关的CISCO 2950

启用了 LACP协议。分别收取了实施前和实施后,相同时段

CISCO2950设备的CPU负荷、内存占用及流量。以评估LACP 180孙国锋:基于VRRP+LACP高可靠性网络设计与实现对设备负荷的影响。因为电信业务是走在MASTER VRRP路由上,也就是

CISCO 2950A上,相对于电信业务流量来说,LACP协议启

用后增加的流量要小的多。因此,此次评估根据CISCO

2950B的负荷及流量变化情况来评估LACP协议启用后对 设备负荷的影响,可以避免受到电信业务流量变化的影响, 就单纯评估LACP协议对设备的影响来说,这样可以使评估

结果更加精确。本文从实施前后CPU负荷、内存以及流量变化来评估

改造以后是否对现网有影响。LACP协议启用后对整体的

CPU负荷基本没有影响,其中,LACP协议增加的CPU负荷

为0.05%至0.06%之间。对设备的安全运行没有影响。2950

设备整体内存占用增加了不到0.3%;对设备的安全运行没

有影响。设备发的流量增加约为300bytes/sec,收到的流量 没有变化。CISCO2950网口速率为100Mbytes/sec,因此增

加的300bytes/sec可以忽略。对设备的安全运行没有任何 影响。实施前后交换机cpu负荷对比如下图:实篇前实为后System5 seconds1 minute5 minutes5 seconds1 minute5 minutesCISCO2950A4%/0%2%2%0.00%0.04%0.05%CISCO2950B1%1%0.16%0.07%0.06%图4实施前后交换机cpu负荷对比图实施前后交换机内存对比如下图:System实施前内存实施后内存CISCO295OA巧15.6%CISCO295OB巧.2巧.5%图2实施前后交换机内存对比图实施前后交换机流量对比如下图:System实施前流量

实施后流量

CISCO295O A100M bytes/sec增加 300bytes/sec实施前后交换机流量对比图5结语本文除了通过更换硬件的办法解决了媒体网关退服故

障,还通过LACP的周期性发送LACPDU的特点检测两端

设备及设备之间链路工作状态,如有异常通过LACP断开相 应网络连接触发网络倒换实现故障冗余保护。即避免了单 独使用VRRP不支持切换的情况,也避免了 LACP协议只能 够检测两端设备及设备间链路工作状态而无法起到切换的

作用。结合两种技术彻底解决了现网存在的安全隐患,而且

这种解决方案经过验证,对现网交换机设备的内存、负荷影

响几乎为零。参考文献:[1] 赏海燕.软交换核心网双路由中断业务保护方案的研究

与应用[D].北京邮电大学,2009.[2] 俞淮.冗余链路的可靠性研究与实现[J].计算机时代,2018.[3] 张文川.使用VRRP技术提髙网络的可靠性[J].软件工程,

2017.[4] 郑涛,郭裕顺.基于LACP协议的链路聚合状态机模块的

实现[J].计算机系统应用,2010.

因篇幅问题不能全部显示,请点此查看更多更全内容