摘要:客户在使用光模块时,或多或少会遇到各种故障问题,例如光模块型号选用是否正确、使用的跳线是否合适等常见问题。客户通常具备一定的判断能力,并有明确的解决方法。然而,对于某些使用过程中出现的故障,如传输异常等,许多客户可能不知道如何排查和解决。本文将重点介绍如何排查
光模块传输类故障排查及解决方法
客户在使用光模块时,或多或少会遇到各种故障问题,例如光模块型号选用是否正确、使用的跳线是否合适等常见问题。客户通常具备一定的判断能力,并有明确的解决方法。然而,对于某些使用过程中出现的故障,如传输异常等,许多客户可能不知道如何排查和解决。本文将重点介绍如何排查并解决常见的光模块传输类故障问题。
该类光模块故障主要包括端口不UP、端口状态为UP但不接收或发送报文、端口频繁up或down以及CRC错误。具体排查方式及解决方案如下:
1. 端口不UP
以10G SFP+/XFP光模块为例,当光模块光口与其他设备互连不能UP时,可从以下五个方面进行排查:
- 第一步,检查两端端口的速率和双工模式是否匹配。执行“show interface brief”命令进行查看,若不匹配,通过speed命令和duplex命令配置端口的速率和双工模式。
- 第二步,检查设备端口与光模块的速率、双工模式是否匹配。执行“show interface brief”命令进行查看,若不匹配,通过speed命令和duplex命令配置端口的速率和双工模式。
- 第三步,检查两端端口是否正常。通过环回测试两端端口是否能UP。在单板上的10G SFP+端口上使用10G SFP+直连线缆(适用于短距离连接,或用SFP+光模块和光纤跳线)进行互连,10G XFP端口上使用XFP光模块和光纤进行测试,查看该端口是否能UP。如果能UP,则说明对端端口异常;如果不能UP,则说明本端端口异常。可通过更换本端、对端端口来检查故障是否解决。
- 第四步,检查光模块是否正常。主要是检查DDM、光功率、波长、距离等参数是否正常,若不正常,则通过更换与光接口匹配的光模块。
- DDM信息:通过“show interfaces transceiver detail”命令检查参数是否正常,若出现告警,则表示该光模块有故障或与光接口类型不匹配。
- 光功率:使用光功率计测试端口收发光功率是否在正常范围内且稳定。
- 波长/距离:通过“show transceiver interface”命令检查两端光模块波长、距离等是否一致。
- 第五步,检查光纤是否正常。例如,单模SFP+光模块搭配单模光纤,多模SFP+光模块搭配多模光纤,若不匹配,立即更换与之相匹配的光纤。
若按上述步骤仍未找到故障原因或解决问题,建议直接联系供应商的技术人员寻求帮助。
2. 端口状态为UP,但不接收或发送报文
当端口状态为UP,却不能接收或发送报文时,从以下三个方面进行排查:
- 第一步,查看端口报文统计结果。检查两端端口状态是否一直UP,并检测两端的报文统计是否增长。
- 第二步,检查端口配置是否影响报文的接收。首先检查是否做过网络配置,核查配置是否正确,必要时全部删除再测试;其次检查端口MTU值是否为1500,若大于1500,则需修改配置。
- 第三步,检查端口及链路是否正常。更换连接端口,将其连接到其他端口查看是否存在相同现象,若仍故障,则替换光模块。
若按上述步骤排查后问题仍未解决,建议直接联系供应商的技术人员。
3. 端口频繁up或down
当光模块的光端口频繁up或down时,先确认光模块是否异常,可通过查看光模块alarm信息来排查两端光模块及连接光纤问题。对于支持数字诊断功能的光模块,可通过查看DDM信息确认光模块的光功率是否处于临界值。若发射光功率处于临界值,则更换光纤、光模块进行交叉验证;若接收光功率处于临界值,则排查对端光模块及连接光纤。当电口光模块出现该情况,尝试设置速率双工。
若排查完链路、对端设备以及中间设备后,故障仍存在,建议直接联系供应商的技术人员。
4. CRC错误
- 第一步,查看报文统计信息判断故障问题。通过“show interface”命令,查看端口出入方向的错包统计,确定哪项增长,从而判断故障问题。
- 端口入方向出现CEC、frame、throttles错包且计数持续增加:使用仪器测试链路是否故障,若故障则更换网线或光纤;或更换网线或光纤光模块与其他端口连接,若端口更换后错包再次出现,则视为单板端口故障,若更换到正常端口仍出现错包,则对端设备、中间传输链路故障可能性较大,需排查。
- 检查端口入方向是否出现overrun错包且计数持续增加:通过多次执行“show interface”命令查询input errors是否有增加,若有则表示overruns增加,单板内部可能拥塞或堵死。
- 检查端口入方向是否出现giants错包且计数持续增加:检查两端Jumbo配置是否一致,如端口默认的最大报文长度是否一致,允许最大报文长度是否一致等。
- 第二步,检查光模块的光功率是否正常。通过“show transceiver interfaces detail”命令查看光口所插光模块的数字诊断参数的当前测量值。若光模块的光功率不正常,则需更换光模块。
- 第三步,检查端口配置是否正常。通过“show interface brief”命令查看端口配置是否有异常,其中两端的协商状态双工模式和端口速率是否一致,若存在半双工模式或速率不一致,则通过duplex命令和speed命令分别配置双工模式和端口速率。
- 第四步,检查端口及链路介质是否正常。更换连接端口查看是否存在相同现象,若存在相同现象,则检查连接链路中中间设备以及传输介质是否正常,若正常,则替换光模块。
- 第五步,检查端口是否收到大量流控帧。通过“show interface”命令,查看端口pauses帧计数,若不断增长,则说明该端口发出或接收到了大量流控帧。另外,检查端口出入流量是否过大以及对端设备的流量处理能力。
经过上述检查后,若配置、对端以及链路均无问题,但故障仍存在,请直接联系供应商的技术支持人员。
关于睿海光电
作为AI光模块领域的领导品牌,睿海光电持续为全球数据中心、超算中心、智算中心、云计算及人工智能客户提供创新产品与解决方案。我们不断突破技术边界,现已实现400G/800G高速光模块规模化量产,并稳步推进1.6T光模块研发进程。
睿海光电服务网络覆盖全球1560余家客户,在深圳、北京、香港设立分公司及运营中心。深圳基地配备专业研发中心及3120平方米智能制造工厂,为客户提供高速光模块(含液冷)、高速线缆、有源光缆等产品的OEM/ODM/JDM定制服务。
来源:光模块睿哥