请教一下CRC errors和enc-out问题

整体环境为全HP产品
存储为3par,SAN switch为博客系列,小型机为 rx8640
下面反应业务有中断现象,出现频率较小,大部分时间是可以正常业务的。
分别对操作系统、SAN交换、存储进行分析
1、在存储中发现异常如下:
Message                                                                                        Repeat Count        First Time
Port 0:1:1 Degraded (Intermittent CRC Errors Detected)                1173                        Dec 07  2013 04:43:09 CST
Host Port 0:1:1 experienced over 50 CRC errors (53) in 24 hours        1171                        Dec 07  2013 04:43:09 CST

2、查看了SAN switch日志,在连接小型机(两台)的端口上发现以下情况:
porterrshow:
            frames      enc    crc    crc     too    too    bad    enc     disc   link   loss    loss   frjt   fbsy   c3timeout
             tx     rx      in    err    g_eof  shrt   long   eof     out     c3     fail    sync   sig                    tx    rx
      
  1:    1.5g   4.1g   56      14      1        0      0     13    398.4k   1       0     14     16      0      0      0      0   
  6:    3.7g   3.4g   22      11      6        0      0      5      1.0m    4       0      7      10      0      0      0      0
(如果看起来较乱请见谅)  
端口情况:
Index Port Address Media Speed State        Proto
==============================================
   1     1     010100   id      N4     Online      FC  F-Port  50:01:43:80:11:00:02:da
   6     6     010600   id      N4     Online      FC  F-Port  50:01:43:80:16:e7:ec:1c
其他端口有N4,N8不通速率混用,我查看的机房管理员所说的存储与SAN switch链接线路状态为No_Light状态,速率为N8,不知道速率是否有影响。

3、主机上MP查看硬件没发现故障,其他不知道如何排查(正在协调收集系统日志分析)

疑问是不确定这是什么问题造成的?该问题是否会导致业务异常?尝试换过光纤线,问题依旧存在,另外机房EMC设备中也出现类似问题,还请大神指教下一步该如何做,有什么需要的信息我会搜集并贴上

14回答

phanxphanx  系统工程师 , 银行
第一条信息说的是LUN的容量进行了变化,从800M变成了600M。第二条信息说的是一个LUN的一条路径失效了。在有多路径软件的情况下,只要LUN的路径里面有online的,那么这个LUN就还是可用的,这可能就是为什么HP说"没什么影响"的原因。 对于LUN本身的可用来讲是没有什么影响。而且如...显示全部
第一条信息说的是LUN的容量进行了变化,从800M变成了600M。

第二条信息说的是一个LUN的一条路径失效了。在有多路径软件的情况下,只要LUN的路径里面有online的,那么这个LUN就还是可用的,这可能就是为什么HP说"没什么影响"的原因。 对于LUN本身的可用来讲是没有什么影响。而且如果这个信息是偶尔出现在单个LUN上面,而不是很多LUN上面的话确实是。 但是,这个信息也有可能说明了在操作这个LUN的时候错误过多而导致LUN Path offline,间接说明了链路有可能有问题。当然不是绝对。收起
 2014-07-08
浏览3188
cxj252cxj252  软件开发工程师 , dw
回复 13# phanx     非常感谢你这意见,您知道下面这是什么情况吗?class : disk, instance 310 LUN (dev=0xd00001f) capacity has shrunk from 838860799 to 629145599. class : lunpath, instance 95 lun path (class = lunpath, instance = 95) belonging to L...显示全部
回复 13# phanx


    非常感谢你这意见,您知道下面这是什么情况吗?
class : disk, instance 310
LUN (dev=0xd00001f) capacity has shrunk from 838860799 to 629145599.

class : lunpath, instance 95
lun path (class = lunpath, instance = 95) belonging to LUN (default minor = 0x1f) has gone offline.  The lunpath hwpath is 0/0/12/0/0/0/0.0x50001fe1501c745a.0x4012000000000000
看到这个我没淡定得了,可是机房那边声称找HP看过,说没什么影响,这是我提到的链路问题造成的吗?收起
 2014-07-08
浏览3071
phanxphanx  系统工程师 , 银行
可以,这种涉及不稳定的问题都较为麻烦,只有逐段诊断和排除。  而且要通过找共性和特点等手段结合。比如相同存储别的机器是否存在这个问题。 同一台机器是否连接了别的存储,有没有类似问题。 这样容易找出故障点。...显示全部
可以,这种涉及不稳定的问题都较为麻烦,只有逐段诊断和排除。  而且要通过找共性和特点等手段结合。比如相同存储别的机器是否存在这个问题。 同一台机器是否连接了别的存储,有没有类似问题。 这样容易找出故障点。收起
 2014-07-07
浏览3120
cxj252cxj252  软件开发工程师 , dw
回复 11# phanx     那没有,看来是做不了了,我有一个思路,不知道是否可以排除问题,结合您所说的,问题大致在光口模块→光纤线→对端HBA卡这一链路上,目前HBA卡我没条件进行测试,是否可以先对光交光口模块、光纤线逐一排查,来确定问你究竟出现在什么地方呢?...显示全部
回复 11# phanx


    那没有,看来是做不了了,我有一个思路,不知道是否可以排除问题,结合您所说的,问题大致在光口模块→光纤线→对端HBA卡这一链路上,目前HBA卡我没条件进行测试,是否可以先对光交光口模块、光纤线逐一排查,来确定问你究竟出现在什么地方呢?收起
 2014-07-07
浏览3729
phanxphanx  系统工程师 , 银行
测试发光功率需要有光功率计。显示全部
测试发光功率需要有光功率计。收起
 2014-07-07
浏览6176
cxj252cxj252  软件开发工程师 , dw
回复 9# phanx     也怀疑过光纤线出问题,更换过光纤线,问题还是存在HBA卡上如何测试发光功率?还望明示非常感谢您的回答显示全部
回复 9# phanx


    也怀疑过光纤线出问题,更换过光纤线,问题还是存在
HBA卡上如何测试发光功率?还望明示
非常感谢您的回答收起
 2014-07-07
浏览6255
phanxphanx  系统工程师 , 银行
你的1,6口接收到的功率都有点偏低  -8.x dbm .   一般距离不长的话都在 -3.x 到 -4.x 左右,所以建议检查一下这两条链路,有机会的话可以测测对端口子的发光功率是多少,看是不是光纤的问题。 还有就是检查有没有插好,有的时候是光纤没有插好,或者光纤头子脏...显示全部
你的1,6口接收到的功率都有点偏低  -8.x dbm .   一般距离不长的话都在 -3.x 到 -4.x 左右,所以建议检查一下这两条链路,有机会的话可以测测对端口子的发光功率是多少,看是不是光纤的问题。 还有就是检查有没有插好,有的时候是光纤没有插好,或者光纤头子脏了。收起
 2014-07-07
浏览6229
cxj252cxj252  软件开发工程师 , dw
回复 7# cxj252     主机连接端口sfp ( SAN SW2)sw300:admin> sfpshow 6Identifier:  3    SFPConnector:   7    LCTransceiver: 540c404000000000 2,4,8_Gbps M5,M6 sw Short_distEncoding:    1  &nb...显示全部
回复 7# cxj252


    主机连接端口sfp ( SAN SW2)
sw300:admin> sfpshow 6
Identifier:  3    SFP
Connector:   7    LC
Transceiver: 540c404000000000 2,4,8_Gbps M5,M6 sw Short_dist
Encoding:    1    8B10B
Baud Rate:   85   (units 100 megabaud)
Length 9u:   0    (units km)
Length 9u:   0    (units 100 meters)
Length 50u:  5    (units 10 meters)
Length 62.5u:2    (units 10 meters)
Length Cu:   0    (units 1 meter)
Vendor Name: HP-F     BROCADE
Vendor OUI:  00:05:1e
Vendor PN:   AJ716B         
Vendor Rev:  A   
Wavelength:  850  (units nm)
Options:     003a Loss_of_Sig,Tx_Fault,Tx_Disable
BR Max:      0   
BR Min:      0   
Serial No:   UAF41211000014C
Date Code:   120312  
DD Type:     0x68
Enh Options: 0xfa
Status/Ctrl: 0x80
Alarm flags[0,1] = 0x5, 0x0
Warn Flags[0,1] = 0x5, 0x0
                                          Alarm                  Warn
                                   low        high       low         high
Temperature: 40      Centigrade    -10         90         -5          85
Current:     6.642   mAmps          1.000      17.000     2.000       14.000
Voltage:     3281.5  mVolts         2900.0      3700.0    3000.0       3600.0
RX Power:    -4.3    dBm (371.7uW) 10.0   uW 1258.9 uW   15.8   uW  1000.0 uW
TX Power:    -3.3    dBm (465.8 uW)125.9  uW   631.0  uW  158.5  uW   562.3  uW

State transitions: 4
sw300:admin> sfpshow 1
Identifier:  3    SFP
Connector:   7    LC
Transceiver: 540c404000000000 2,4,8_Gbps M5,M6 sw Short_dist
Encoding:    1    8B10B
Baud Rate:   85   (units 100 megabaud)
Length 9u:   0    (units km)
Length 9u:   0    (units 100 meters)
Length 50u:  5    (units 10 meters)
Length 62.5u:2    (units 10 meters)
Length Cu:   0    (units 1 meter)
Vendor Name: HP-F     BROCADE
Vendor OUI:  00:05:1e
Vendor PN:   AJ716B         
Vendor Rev:  A   
Wavelength:  850  (units nm)
Options:     003a Loss_of_Sig,Tx_Fault,Tx_Disable
BR Max:      0   
BR Min:      0   
Serial No:   UAF41211000041L
Date Code:   120312  
DD Type:     0x68
Enh Options: 0xfa
Status/Ctrl: 0xa0
Alarm flags[0,1] = 0x5, 0x0
Warn Flags[0,1] = 0x5, 0x0
                                          Alarm                  Warn
                                   low        high       low         high
Temperature: 43      Centigrade    -10         90         -5          85
Current:     8.362   mAmps          1.000      17.000     2.000       14.000
Voltage:     3272.0  mVolts         2900.0      3700.0    3000.0       3600.0
RX Power:    -4.8    dBm (331.2uW) 10.0   uW 1258.9 uW   15.8   uW  1000.0 uW
TX Power:    -3.4    dBm (462.0 uW)125.9  uW   631.0  uW  158.5  uW   562.3  uW

State transitions: 2收起
 2014-07-06
浏览6193
cxj252cxj252  软件开发工程师 , dw
回复 5# phanx 主机连接端口sfp(SAN SW1)    swd77:admin> sfpshow 6Identifier:  3    SFPConnector:   7    LCTransceiver: 540c404000000000 2,4,8_Gbps M5,M6 sw Short_distEncoding:    1   ...显示全部
回复 5# phanx


主机连接端口sfp(SAN SW1)
    swd77:admin> sfpshow 6
Identifier:  3    SFP
Connector:   7    LC
Transceiver: 540c404000000000 2,4,8_Gbps M5,M6 sw Short_dist
Encoding:    1    8B10B
Baud Rate:   85   (units 100 megabaud)
Length 9u:   0    (units km)
Length 9u:   0    (units 100 meters)
Length 50u:  5    (units 10 meters)
Length 62.5u:2    (units 10 meters)
Length Cu:   0    (units 1 meter)
Vendor Name: HP-F     BROCADE
Vendor OUI:  00:05:1e
Vendor PN:   AJ716B         
Vendor Rev:  A   
Wavelength:  850  (units nm)
Options:     003a Loss_of_Sig,Tx_Fault,Tx_Disable
BR Max:      0   
BR Min:      0   
Serial No:   UAF41211000014I
Date Code:   120312  
DD Type:     0x68
Enh Options: 0xfa
Status/Ctrl: 0xa0
Alarm flags[0,1] = 0x5, 0x0
Warn Flags[0,1] = 0x5, 0x0
                                          Alarm                  Warn
                                   low        high       low         high
Temperature: 40      Centigrade    -10         90         -5          85
Current:     8.766   mAmps          1.000      17.000     2.000       14.000
Voltage:     3305.4  mVolts         2900.0      3700.0    3000.0       3600.0
RX Power:    -8.5    dBm (139.7uW) 10.0   uW 1258.9 uW   15.8   uW  1000.0 uW
TX Power:    -3.3    dBm (466.9 uW)125.9  uW   631.0  uW  158.5  uW   562.3  uW

State transitions: 4
swd77:admin> sfpshow 1
Identifier:  3    SFP
Connector:   7    LC
Transceiver: 540c404000000000 2,4,8_Gbps M5,M6 sw Short_dist
Encoding:    1    8B10B
Baud Rate:   85   (units 100 megabaud)
Length 9u:   0    (units km)
Length 9u:   0    (units 100 meters)
Length 50u:  5    (units 10 meters)
Length 62.5u:2    (units 10 meters)
Length Cu:   0    (units 1 meter)
Vendor Name: HP-F     BROCADE
Vendor OUI:  00:05:1e
Vendor PN:   AJ716B         
Vendor Rev:  A   
Wavelength:  850  (units nm)
Options:     003a Loss_of_Sig,Tx_Fault,Tx_Disable
BR Max:      0   
BR Min:      0   
Serial No:   UAF412110000101
Date Code:   120312  
DD Type:     0x68
Enh Options: 0xfa
Status/Ctrl: 0xa0
Alarm flags[0,1] = 0x5, 0x0
Warn Flags[0,1] = 0x5, 0x0
                                          Alarm                  Warn
                                   low        high       low         high
Temperature: 41      Centigrade    -10         90         -5          85
Current:     8.352   mAmps          1.000      17.000     2.000       14.000
Voltage:     3291.4  mVolts         2900.0      3700.0    3000.0       3600.0
RX Power:    -8.9    dBm (128.0uW) 10.0   uW 1258.9 uW   15.8   uW  1000.0 uW
TX Power:    -3.3    dBm (465.0 uW)125.9  uW   631.0  uW  158.5  uW   562.3  uW

State transitions: 2收起
 2014-07-06
浏览6227
cxj252cxj252  软件开发工程师 , dw
回复 5# phanx     马上获取1,6端口sfp信息。另外,有没有可能是主机HBA卡的问题呢?HBA卡信息如下:Class     I  H/W Path        Driver S/W State   H/W Type     De...显示全部
回复 5# phanx


    马上获取1,6端口sfp信息。
另外,有没有可能是主机HBA卡的问题呢?HBA卡信息如下:
Class     I  H/W Path        Driver S/W State   H/W Type     Description
=======================================================================
fc        0  0/0/12/0/0/0/0  fclp   CLAIMED     INTERFACE    HP AD299-60001 4Gb PCIe 1-port Fibre Channel Adapter
                            /dev/fclp0
fc        1  1/0/12/0/0/0/0  fclp   CLAIMED     INTERFACE    HP AD299-60001 4Gb PCIe 1-port Fibre Channel Adapter
                           /dev/fclp1

HBA卡详细信息(fclp0)
Vendor ID is = 0x10df
Device ID is = 0xfe00
PCI Sub-system Vendor ID is = 0x103c
PCI Sub-system ID is = 0x7046
Chip version = 2
Firmware Version = 2.70X5 SLI-3 (Z3D2.70X5)
EFI Version = ZE3.21A3
EFI Boot = ENABLED
Driver-Firmware Dump Available = NO
Driver-Firmware Dump Timestamp = N/A
Topology = PTTOPT_FABRIC
Link Speed = 4Gb
Local N_Port_id is = 0x010100
Previous N_Port_id is = None
N_Port Node World Wide Name = 0x50014380110002db
N_Port Port World Wide Name = 0x50014380110002da
Switch Port World Wide Name = 0x20010027f893dffd
Switch Node World Wide Name = 0x10000027f893dffd
Driver state = ONLINE
Hardware Path is = 0/0/12/0/0/0/0
Maximum Frame Size = 2048
Driver Version = @(#) FCLP: PCIe Fibre Channel driver (FibrChanl-02), B.11.31.1009, May  7 2010, FCLP_IFC (3,2)收起
 2014-07-06
浏览6232

提问者

cxj252软件开发工程师, dw

问题状态

  • 发布时间:2014-07-05
  • 关注会员:1 人
  • 问题浏览:22591
  • 最近回答:2014-07-08