摘要:大家好,我是 “极客运维社”的飞哥,点击右上方“关注”,每天和大家分享 关于 网络设备及系统和企业组网 方面干货。码字不易,如果您觉得文章还可以,就点赞+关注+收藏吧,也许在以后某个时间能够用得到。
大家好,我是 “极客运维社”的飞哥,点击右上方“关注”,每天和大家分享 关于 网络设备及系统和企业组网 方面干货。码字不易,如果您觉得文章还可以,就点赞+关注+收藏吧,也许在以后某个时间能够用得到。
开场:一次断网引发的“血案”
上周三早上,接到一个西安某公司的网络运维人员老张反馈,早上在去公司的路上,突然收到十几条微信轰炸:“外网断了!客户投诉!VPN连不上!”老张冲到机房一看,主用电信线路的指示灯亮得刺眼——明明物理链路正常,可流量死活切不到备用联通线路。
注意:本篇文章,并不涉及具体配置过程,如果要查看 详细实验过程见如下链接
他满头大汗地翻配置文档,嘴里念叨:“BFD配了,路由优先级也没问题,这祖宗路由器咋就不听话呢?!” 如果你也遇到过这种“主备切换玄学现场”,别慌!今天我们就用华为设备实战经验,拆解主备切换的“暗坑”,教你用3 招搞定多运营商冗余方案,让网络稳如老狗,老板再也不用担心你半夜被call!
第一招:你的检测机制,可能是个“假把式”
——别让“伪正常”线路坑了你
很多网络运维人员以为,只要主线路物理接口没宕机,网络就是通的。但现实很骨感:运营商光缆被挖【吐槽一下,高新区光缆时不时就会被挖断,无语了!】、DNS抽风、网关单板故障,都可能让接口“灯亮着”,实际业务却断了!
避坑指南:让检测机制“活”起来
1、别死磕接口状态: 华为设备的BFD或NQA才是真正的“火眼金睛”。比如用NQA检测公网DNS或网关:
ip link name CT_CHECK # 给检测任务起个名,比如“电信健康检查” destination 202.96.134.133 # 电信DNS地址(别照抄,换成你的运营商DNS!) interval 5 timeout 2 # 每5秒发个探测包,超时2秒算失败关键点:一定要选一个跨运营商的探测IP(比如114.114.114.114),否则可能出现“电信线路检测电信IP正常,但实际联通用户访问不了”的尴尬!
2、参数调优防“抽风”: 见过BFD检测频率设成10秒,结果切换要等30秒?老板的脸都能黑成锅底!
bfd 主备绑定 session min-tx-interval 100 # 发送间隔100ms(别低于运营商允许的最小值!) detect-multiplier 3 # 3次收不到回复就判定死亡血泪经验:先和运营商确认BFD支持情况!某客户设了50ms间隔,结果触发运营商限流,直接玩脱……
第二招:路由优先级?你可能排了“假队”
——华为设备的“甩锅”艺术
明明主线路优先级60,备用100,可主线路一挂,备用路由死活不接管?问题可能出在:路由根本没进路由表!
实战场景:
某公司配置了:
ip route-static 0.0.0.0 0.0.0.0 电信网关 preference 60 ip route-static 0.0.0.0 0.0.0.0 联通网关 preference 100[上面配置,我把电信网关和联通网关省略了,做了脱敏处理,配置过程中,换成相应运营商的网关即可。]
结果主线路故障后,display ip routing-table里压根看不到备用路由!
原因拆解:
1、如果备用路由的出接口没UP(比如物理链路正常但没配IP),静态路由不会生效!
解决方案:加track联动接口状态!
track 1 interface GigabitEthernet0/0/1 line-protocol # 盯紧联通接口的物理状态 ip route-static 0.0.0.0 0.0.0.0 联通网关 preference 100 track 1通俗理解:告诉路由器:“如果联通接口的灯都不亮,这备用路由你就当不存在!”
第三招:多运营商混搭,小心NAT“精神分裂”
——为什么切了线路,微信能发图但网页打不开?
主备切换后,最怕“半残”状态:部分业务能用,部分卡死。常见坑点:NAT地址池没跟着切!
经典翻车案例:
某公司主用电信IP为113.116.20.100,备用联通IP为210.51.160.10。切换后,NAT还在用电信IP做转换,导致联通线路发出的包“顶着电信IP”,被运营商直接丢弃!
华为设备救命配置:
# 为每条线路绑定专属NAT池,并联动检测 nat-policy interzone trust untrust outbound policy 1 action nat source any outbound interface GigabitEthernet0/0/0 # 电信出口 address-group CT_POOL track ip-link CT_CHECK # 只在电信健康时启用 policy 2 outbound interface GigabitEthernet0/0/1 # 联通出口 address-group CU_POOL避坑口诀:
1、每个运营商的NAT地址池必须提前备案,否则切换后可能被运营商封杀!
2、重要业务(比如视频会议)建议用策略路由强制指定出口,避免自动选路“乱跳”。
附赠彩蛋:3 个让老板眼前一亮的“骚操作”
1、DNS 隐身术:
切换线路后,用dns proxy功能强制所有DNS请求走新出口,避免解析到旧线路IP:
dns proxy enable dns server source-interface GigabitEthernet0/0/1 # 指定从联通接口发DNS请求2、故障演练“剧本杀”:
每月挑个半夜,手动shutdown主接口,测试备用链路接管时间。记录结果贴给老板:“本月切换耗时2.3秒,达成SLA 99.99%!”
3、BGP混接“土豪玩法”:
如果有公网IP和AS号,用BGP同时接入电信、联通,实现无缝切换:
bgp 65001 peer 电信对端IP as-number 4134 peer 联通对端IP as-number 4837 network 0.0.0.0效果:运营商自动帮你选最优路径,还能秀一把“高端网络架构”!
总结:网络高可用,功夫在“细节”
主备切换不是配几个命令就完事,而是一场和“不确定性”的战争。记住三个关键:
1、检测机制要“狠”(频率够快、探测点靠谱)
3、NAT/IP身份别“穿帮”(不同运营商认IP如认脸,别乱用!)
下次再遇到切换失败,掏出这三招,淡定地对同事说:“走,去机房喝杯咖啡,5分钟后搞定!”
文中配置代码,是基于华为AR路由器的,在生产环境中请以设备版本为准。遇到诡异故障?记住终极秘籍——重启无效就甩锅给运营商![呲牙]哈哈哈
作者简介
我是“极客运维社”飞哥,系统运维工程师一枚,持续分享【网络技术+系统运维技术】干货。码字不易,如果您觉得文章还可以,就关注+收藏吧,也许在以后某个时间能够用得到。
来源:极客运维社