o0呼噜Zz
作者o0呼噜Zz·2022-05-20 10:47
系统工程师·机密

Brocade 链路故障排错及光信号单位

字数 4706阅读 1849评论 1赞 1

Marginal links 排错方法主要有两种:

  • 交换机自身硬件问题排查

portloopbacktest 检测交换机自身数据转发功能是否正常。(注意:要求交换机是 Disabled 状态)

  • 链路诊断

porterrshow 诊断链路质量。
portloopbacktest
portloopbacktest 可以用来诊断交换机自身硬件是否正常。不需要连接 sfp 和光纤线,使用的是交换机内部的 loopback path (类似于以太网卡的 127.0.0.1 地址)。测试的结果要么是 Passed ,要么是 Failed 。如果是 Failed 就需要更换交换机板卡或者整个交换机。使用帮助如下。

USAGE :

portloopbacktest [--slot slot] [-nframes count] -lb_mode mode [-ports itemlist]

–slot 需要测试的板卡

–nframes 测试的帧数量

–lb_mode 测试模式

–spd_mode 指定测试时端口工作速率

–ports 指定需要测试的端口

举例 1

DS_5100B:root> portloopbacktest

Running portloopbacktest ..............

PASSED.

测试时候 switchshow 结果如下:

DS_5100B:root> switchshow

switchName: DS_5100B

switchType: 66.1

switchState: Offline

switchMode: Native

switchRole: Disabled

switchDomain: 1 (unconfirmed)

switchId: fffc01

switchWwn: 10:00:00:05:1e:57:10:84

zoning: ON (abc)

switchBeacon: OFF

FC Router: OFF

FC Router BB Fabric ID: 128

Address Mode: 0

Index Port Address Media Speed State Proto

==============================================

0 0 010000 id 8G Online FC Testing Loopback->Port 0

1 1 010100 id 8G Online FC Testing Loopback->Port 1

2 2 010200 id 8G Online FC Testing Loopback->Port 2

3 3 010300 id 8G Online FC Testing Loopback->Port 3

4 4 010400 id 8G Online FC Testing Loopback->Port 4

5 5 010500 id 8G Online FC Testing Loopback->Port 5

5 6 010500 id 8G Online FC Testing Loopback->Port 6

7 7 010700 id 8G Online FC Testing Loopback->Port 7

8 8 010800 id 8G Online FC Testing Loopback->Port 8

porterrshow

porterrshow 可以显示所有交换机端口 error counters ,步骤如下:

  1. 交换机输入命令 porterrshow ( 请先使用 statsclear/portstatsclear 清理历史记录)

举例 2:

switch:admin> porterrshow

frames enc crc crc too too bad enc disc link loss loss frjt fbsy

tx rx in err g_eof shrt long eof out c3 fail sync sig

============================================================================

0: 665k 7.0k 0 0 0 0 0 0 6 0 0 1 2 0 0

1: 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0

2: 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0

  1. 检查输出结果是否有较高的 error 计数器(比如 CRC 错误或者 ENC_OUT 错误),只有在不停稳步增长的错误才能确认 marginal link 。一般可以 5 分钟看一次。

§ Tx 和 Rx 分别代表发送和接受的帧数量

§ Crc_err 代表 CRC 校验错误的帧数量。如果这个错误数量一直在上升,那么这个链路应该有物理故障。需要检查光纤线, SFP , HBA 卡等。

8GB 平台请先检查 portcfgshow 里面 fill word 是否是 3 。

§ Enc_out 错误与帧本身没有关系,通常代表代表一个 primitive signal 或者 sequence 有错误。通常确认是否光纤线有问题的方法是 5-10 分钟抓取一次 porterrshow 结果,如果看到 crc_err 计数器一直上升,那么光纤线或者 HBA 卡有硬件问题。

§ Disc_c3 代表 class 3 类型 FC 帧有丢包现象,一般是由于帧在交换机 buffer 里面超时导致。当 ISL 链路过载或者不稳定时候会有这个问题。

一般结合两个或者两个以上错误指标来诊断问题,必要时候需要参考 portstatsshow 结果。

  1. 两种常见排查方法

§ SFP 替换法

§ 光纤线替换法

对于 marginal links ,上面两种方法可以排除大部分的硬件问题。

附录:常见排查命令:

1.先运行,porterrshow 查看口状态,然后'statsclear' and 'slotstatsclear'

2.查看:porterrshow,看下port 口的情况

3.收集supportshow ,supportsave

4.查看sfpshow -all 可以看23口倒数第二行RX Power状态,若较大就正常

sfpshow -all :

=============

Port 0:

=============

Identifier: 3 SFP

Connector: 7 LC

Transceiver: 540c402000000000 200,400,800_MB/s M5,M6 sw Inter_dist

Encoding: 1 8B10B

Baud Rate: 85 (units 100 megabaud)

Length 9u: 0 (units km)

Length 9u: 0 (units 100 meters)

Length 50u: 5 (units 10 meters)

Length 62.5u:3 (units 10 meters)

Length Cu: 0 (units 1 meter)

Vendor Name: BROCADE

Vendor OUI: 00:05:1e

Vendor PN: 57-1000012-01

Vendor Rev: A

Wavelength: 850 (units nm)

Options: 001a Loss_of_Sig,Tx_Fault,Tx_Disable

BR Max: 0

BR Min: 0

Serial No: UAA210473397682

Date Code: 101127

DD Type: 0x68

Enh Options: 0xf0

Status/Ctrl: 0x92

Alarm flags[0,1] = 0x0, 0x0

Warn Flags[0,1] = 0x0, 0x40

Alarm Warn

low high low high

Temperature: 34 Centigrade -15 100 -10 95

Current: 7.112 mAmps 2.000 8.500 2.000 8.500

Voltage: 3286.1 mVolts 2800.0 3800.0 2970.0 3630.0

RX Power: -7.2 dBm (190.9 uW) 0.0 uW 6550.0 uW 49.0 uW 1100.0 uW

TX Power: -2.3 dBm (588.7 uW) 50.0 uW 800.0 uW 100.0 uW 700.0 uW

5.若还是很小,原来:-16.3 dBm (23.2 uW),更换光纤线,再重复上面的步骤.

附录:光信号强度

业界常见衡量光信号强度方法有两种:Microwatts(mW)和dBm,不同平台 交换机 采用方式可能会不一样,部分会选择mW,部分会选择dBm。SFP光模块信号强度通常包含两个指标,分别是Tx Power和Rx Power。Tx Power代表SFP模块发送方向的光信号强度;Rx Power代表SFP模块接受方向的光信号强度。

mW和dBm之间联系

mW通过功率方式描述光信号强度,dBm是decibel of the measured power to one millwats的简称,通过分贝方式描述光信号功率比。Cisco交换机使用dBm方式,Brocade交换机使用mW方式。两者可以通过以下公式互相转换:

dBm -> mW:

mW -> dBm:

EMC推荐光信号强度范围:

MicrowattMilliwattdBm描述
1.00.0010-30.00丢失信号
10.00.0100-20.00
25.10.0251-16.002Gbps最小接收信号
31.60.0316-15.004Gbps最小接收信号
50.00.0500-13.018Gbps最小接收信号
100.00.1000-10.002Gbps最小发送信号
125.90.1259-9.004Gbps最小发送信号
150.00.1500-8.248Gbps最小发送信号
200.00.2000-6.99信号强度可使用范围
250.00.2500-6.02
300.00.3000-5.23
350.00.3500-4.26

常见速率最大可接受光衰减范围:

· 8Gbps最大可接受信号衰减值:-13.8dBm

· 4Gbps最大可接受信号衰减值:-15.4dBm

· 2Gbps最大可接受信号衰减值:-18.2dBm

查看SFP模块光信号强度:

Cisco/Brocade SAN交换机都提供工具用于查看SFP模块详细信息,包括SFP速率、序列号、Part Number、接受/发送方向光信号强度。

Cisco查看sfp模块光信号强度方法
– show interface transceiver details

Brocade查看sfp模块光信号强度方法
– sfpshow

从上面命令输出结果可以看出,Cisco/Brocade对光信号强度表示方法不一样,而且都提供当前信号强度,SFP有效光信号强度范围。只要当前SFP模块在有效范围以内,就可以认为SFP处于正常工作中。

EMC的推荐范围比Cisco/Brocade交换机自带范围要小,最小信号强度相对高一些,最强信号强度相对低一些。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

1

添加新评论1 条评论

makosunmakosun系统工程师东华软件股份公司
2022-10-01 21:21
学习了,谢谢分享!
Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广