摘要:今天,我不讲高深理论,就给你一套实战派的“十步排查法”,从用户终端到核心设备,层层推进,直击要害。
号主:老杨丨11年资深网络工程师,更多网工提升干货,
去年一家公司天天断网,运维小哥第一反应就是重启交换机。
结果越重启越频繁。我去一看,是光纤接口积灰导致光衰过大,设备间歇性丢包。
清一下,稳了三个月。
网络排障最怕“条件反射式操作”——没分析就重启、没查日志就换线。
今天,我不讲高深理论,就给你一套实战派的“十步排查法”,从用户终端到核心设备,层层推进,直击要害。
今日文章阅读福利:《 网络排障好用工具合集 》
私信我,发送暗号“排障”,即可获取工具资源合集。
目标:判断是单点问题还是全网问题
✅ 单台电脑断网 → 查终端、网卡、IP配置
✅ 一个工区断网 → 查接入交换机、电源、环路
✅ 整栋楼断网 → 查汇聚/核心设备、上行链路、STP震荡
技巧:让不同区域用户同时ping网关,看丢包分布。
动手查:
网线水晶头是否松动、氧化
光纤接口有无灰尘(用放大镜)
电源指示灯是否正常
配线架端口是否虚接
# 交换机命令验证
display interface brief | include down
经验:80%的“断网”源于物理层接触不良。
# Windows
> ipconfig /all # 查IP、网关、DNS
> ping 192.168.1.1 # 测试网关连通性
> ping 8.8.8.8 # 测试外网(需网关通)
> tracert baidu.com # 查路由路径
# Linux
$ ifconfig # 查IP
$ ping -c 4 192.168.1.1
$ mtr 8.8.8.8 # 路径跟踪
阈值:
CPU > 70%:关注内存 > 80%:危险高危进程:L2INF(环路)、ARP(扫描)、ACL(规则复杂)# 查看MAC漂移记录
display mac-address flapping record
# 输出示例:
# MAC: 00e0-fc12-3456
# Flapped between: Gi1/0/5 and Gi1/0/6
结论:若两接口在同一交换机,极可能形成环路,立即 shutdown 其中一个端口。
# 用户侧
> ipconfig /release
> ipconfig /renew
# 交换机侧
display dhcp server expired pool # 查IP分配情况
display arp all | count # ARP表是否异常增长
过多ARP请求 → 扫描或IP冲突
大量广播包 → 环路或蠕虫
TCP重传率高 → 丢包或延迟大
过滤建议:
# 查看STP角色变化
display stp brief
# 关注:
# - Port Role: ROOT/DESI/ALTE
# - 如果ALTE口频繁切换 → 可能链路不稳定
风险:STP震荡会导致短暂断网,表现为“秒级闪断”。
✅ 检查最近是否有配置修改?
✅ ACL是否误拦截?
✅ VLAN划分是否错误?
✅ 是否有人私接设备?
# 查看配置变更日志
display logbuffer | include %SYS-5-CONFIG_I
建议:建立变更审批流程,避免“随手改”。
将网络分段隔离测试:
[终端] --A-- [接入SW] --B-- [汇聚SW] --C-- [防火墙] --D-- [互联网]
A段通,B段不通 → 问题在接入SW上联
B段通,C段不通 → 查汇聚到防火墙链路
C段通,D段不通 → 查防火墙策略或运营商线路
工具:中间插入笔记本,设置静态IP测试连通性。
02 结语网络中断是运维中最常见的故障类型,其原因多样,但排查路径清晰。
通过“范围确认→物理层→终端→设备状态→协议分析→配置核查”的递进式方法,可系统化缩小问题范围。
记住:最快的排障方式不是跑得最快,而是思路最清。
来源:网络工程师俱乐部一点号