vMware 6.5出现存储链路掉线,多路径失效,需要重新插拔光纤跳线才能恢复,求大神分析日志?

某用户,使用ibm x3650 x5服务器运行esxi6.5虚拟化系统,后端NETAPP存储双控,中间两台博科6505,在服务器中多路径没问题,每条线两条路径正常。但是稳定运行一个月后,就会出现虚拟机丢失,链路断开,业务不能访问情况,需要重新插拔hba卡跳线才能恢复。
可疑情况:
1.esxi装在存储上
2.服务器两块hba卡,一块插在pcie x8 一块插在pcie x16
3.hba卡固件冲突,升级固件程序(我研究了一下午不知道如何升级hba卡固件,请问升级驱动程序是否可以?)
hba卡型号是 emulex lpe12000 8GB
附件是vmkernel.log和syslog,希望懂行的老哥帮忙瞧瞧是什么问题。
还有升级过hba卡的同学也给个思路。

附件:

附件图标log.rar (67.21 KB)

参与69

11同行回答

qihanchongqihanchong  系统架构师 , ITMA
要全面进行检查,最好找原厂或者供应商。显示全部

要全面进行检查,最好找原厂或者供应商。

收起
系统集成 · 2018-05-12
浏览9829
a520520168a520520168  系统工程师 , 索菲亚
1.虚机飘走后升级hba卡2.SFP模块金手指擦下3.switch里执行sfpshow * *是端口号, 看RX Power和TX Power ,小于-3.5的话基本有问题,可以尝试拔插SFP或直接更换。4.光纤线选用质量好的,够长就可以了,不是越长越好switch里执行porterrshow **是端口号,看看是否很多crc综合参考其...显示全部

1.虚机飘走后升级hba卡
2.SFP模块金手指擦下
3.switch里执行sfpshow *
*是端口号,
看RX Power和TX Power ,小于-3.5的话基本有问题,可以尝试拔插SFP或直接更换。
4.光纤线选用质量好的,够长就可以了,不是越长越好

  1. switch里执行porterrshow *
    *是端口号,
    看看是否很多crc

综合参考其他高手的回复。

收起
轻工业 · 2018-05-17
浏览10612
  • gwgp  gwgp
    好的,我等着试试这个命令。
    2018-05-30
  • gwgp  gwgp
    2号端口有一个crc,8号端口的rx power4.2,其余都是在2.2到3.6之间
    2018-06-04
keller01keller01  系统工程师 , 无业
通过上面描述建议更换HBA卡在观察。1、首先 确定HBA卡及宿主机服务器是否在VMware兼容列表2、确定服务器HBA卡到SAN交换机模块及板卡是否正常3、检查SAN交换机上对应端口的误码率有多高显示全部

通过上面描述建议更换HBA卡在观察。
1、首先 确定HBA卡及宿主机服务器是否在VMware兼容列表
2、确定服务器HBA卡到SAN交换机模块及板卡是否正常
3、检查SAN交换机上对应端口的误码率有多高

收起
互联网服务 · 2018-05-14
浏览10215
  • gwgp  gwgp
    宿主机只能支持6.0 u3 ,但是我内网有一台esxi 5.5 也是这样。 hba卡到交换机均正常,但是误码率怎么看
    2018-05-15
  • keller01  keller01回复 gwgp
    查san交换机命令 porterrshow
    2018-05-17
sydshowsydshow  网络工程师 , 通软系统集成有限公司
你的问题解决吗?我这里也出现这个问题,san是6510的,存储也是netapp,请san和netapp厂家工程师都看了,都说没有问题,出现三次这种情况了,我都是把san上的线拔插一下就好了,san上还有emc的存储都没有问题,vm和小机用netapp都有问题,用emc存储都没有问题。...显示全部

你的问题解决吗?我这里也出现这个问题,san是6510的,存储也是netapp,请san和netapp厂家工程师都看了,都说没有问题,出现三次这种情况了,我都是把san上的线拔插一下就好了,san上还有emc的存储都没有问题,vm和小机用netapp都有问题,用emc存储都没有问题。

收起
IT分销/经销 · 2018-08-29
浏览9926
  • gwgp  gwgp
    我升级hba卡固件后,稳定运行了三个月,昨天又断开了。我有四台3850 x5 一台3850 x6,我发现x5的机器全部断开了,x6还能连上。我怀疑是hba有问题了。
    2018-08-30
  • sydshow  sydshow回复 gwgp
    我是浪潮的服务器做虚拟化,以前出问题,小机都是断一条链路还能用,这次是都断了,盘符丢了,浪潮的上次出问题时我们都做 了hba卡固件升级,用了大半年,现在同样出了问题,都是重新拔插一下san上的存储线就好了,我怀疑是netapp的兼容性不行,我们虚拟化上的emc没有出现过问题。我们现在在把netapp上数据给迁到emc上,把netapp给不重要的业务,再做测试看看
    2018-09-06
gwgpgwgp  系统工程师 , 山东瑞数信息技术有限公司
感谢信twt社区,感谢网友大大提供的思路,我已经升级过HBA卡的固件版本,正在观察运行状态。如果再有问题另行求助。关于升级emulex hba卡的升级过程参考博科官方英文文档已经总结出来了,我会单独写一篇博文,到时候在这个问题下面发出来,供大家参考,网上教程太少了。已经上传了一个...显示全部

感谢信twt社区,感谢网友大大提供的思路,我已经升级过HBA卡的固件版本,正在观察运行状态。如果再有问题另行求助。
关于升级emulex hba卡的升级过程参考博科官方英文文档已经总结出来了,我会单独写一篇博文,到时候在这个问题下面发出来,供大家参考,网上教程太少了。

已经上传了一个光线交换机的日志,crc有几个,光衰不知道是不是很严重,帮忙看一下吧。谢谢

附件:

附件图标san01.txt (32.9 KB)

附件图标san02.txt (32.95 KB)

收起
系统集成 · 2018-05-30
浏览10105
chengzuqiaochengzuqiao  系统架构师 , 江西省农村信用社
重新插拔就恢复了,从现象来看,HBA卡插槽有问题,可通过硬件检查下,或者直接更换HBA卡,再观察段时间,以确定是否是硬件问题显示全部

重新插拔就恢复了,从现象来看,HBA卡插槽有问题,可通过硬件检查下,或者直接更换HBA卡,再观察段时间,以确定是否是硬件问题

收起
银行 · 2018-05-17
浏览9944
noxudunoxudu  系统工程师 , 姜为
HBA卡问题,升级微码显示全部

HBA卡问题,升级微码

收起
银行 · 2018-05-17
浏览9887
ericyanericyan  系统工程师 , 集团股份有限公司
可能是HBA卡兼容性的问题,感觉emulex的卡比qlogic的卡兼容性要差一点。显示全部

可能是HBA卡兼容性的问题,感觉emulex的卡比qlogic的卡兼容性要差一点。

收起
系统集成 · 2018-05-15
浏览10129
  • gwgp  gwgp
    如果实在不行,只能借两张卡测试测试了
    2018-05-15
chinesezzqiangchinesezzqiang  信息技术经理 , M
1.首先查看一下HBA的问题,禁用某个通道2.看看单个主机的path数量3.是否可以考虑将操作系统安装到本地显示全部

1.首先查看一下HBA的问题,禁用某个通道
2.看看单个主机的path数量
3.是否可以考虑将操作系统安装到本地

收起
IT其它 · 2018-05-14
浏览10344
  • gwgp  gwgp
    已经将系统安装到本地,正在观察,禁用通道的话,随机手动禁用吗
    2018-05-15
  • 如果你之前用的是双主,就随机禁用。主备关系就可以不用禁用了,主要是为了排错
    2018-05-16
jiaxu2000jiaxu2000  系统工程师 , 沈阳医学院附属中心医院
找个u盘插服务器上,为防止误格式化断开光纤,安装linux,在linux下升级hba卡微码显示全部

找个u盘插服务器上,为防止误格式化断开光纤,安装linux,在linux下升级hba卡微码

收起
事业单位 · 2018-05-13
浏览10097
  • gwgp  gwgp
    centos 可以升级是吗?需要上官网下载相关工具吗?
    2018-05-15
  • jiaxu2000  jiaxu2000回复 gwgp
    centos兼容红帽,版本不用太高,一般都可以升级,工具和微码自己想办法找吧
    2018-05-15

提问者

gwgp
系统工程师山东瑞数信息技术有限公司
擅长领域: 主机云计算私有云

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2018-05-12
  • 关注会员:10 人
  • 问题浏览:20416
  • 最近回答:2019-03-15
  • X社区推广