互联网服务多路径hdlmoffline

HDLM多路径offline的问题

最近上完一个项目。IBM的LSF。4台io服务器安装gpfs系统。然后接的是HDS VSP G400存储。2台brocade6510的sanswitch。光纤模块都是16G的FC包括HBA也是。4台io服务器的操作系统是rehat7.2的,多路径用hds的HDLM8.4的。

问题:经常会发现lsf集群会卡,然后检查4台io服务器发现有一台io服务器链路就发现链路offline(E)了就会卡。然后把集群切换到一个正常链路的io服务器上就不卡了。反正就是说只要有offline(E)集群就会卡。

现在就是不知道为什么会链路offline(E)而且奇怪的是用HDLM的命令在线去修复都不行。-u all也删除不了offline(E)的链路。一定要把服务器重启了链路又正常了。反复出现。

有问过厂家的人。说有可能是光纤线的问题,因为16G的对线路要求很高,在高峰期io压力大对线路要求高。

把san的端口降速到8G。再观察。不知道大家有没有碰到这个情况。


丢失路劲.png


参与30

5同行回答

chen78822chen78822软件开发工程师同方公司
卡说明系统反复重试这条链路的通信,直到time out超时才会退出,这个需要看看系统参数是否可以修改.或者说很短时间的time out然后就进行链路切换,应该多路径可以进行参数的设置.至于offline就需要查查线的情况了,如果老是这个链路的问题,可以考虑先换线....显示全部

卡说明系统反复重试这条链路的通信,直到time out超时才会退出,这个需要看看系统参数是否可以修改.

或者说很短时间的time out然后就进行链路切换,应该多路径可以进行参数的设置.

至于offline就需要查查线的情况了,如果老是这个链路的问题,可以考虑先换线.

收起
互联网服务 · 2016-08-01
浏览4763
  • offline的服务器是随机的。不是固定在某台服务器上的聚合盘上。
    2016-08-05
jinruiweijinruiwei系统架构师敦阳(宁波)科技有限公司
已经解决。换om4的康宁的光纤线和交换机降速到8G就可以了。16G对链路要求确实很高显示全部

已经解决。换om4的康宁的光纤线和交换机降速到8G就可以了。16G对链路要求确实很高

收起
互联网服务 · 2016-08-16
浏览4231
jinruiweijinruiwei系统架构师敦阳(宁波)科技有限公司
HDLM版本可以支持redhat7.2的。我问了hds的厂家。交换机有crc的报错。今天把所有的线都换了。san里只有接11port的端口又出现了faillink。多路径软件有设置的。这个就是健康检查默认5分钟。显示全部

HDLM版本可以支持redhat7.2的。我问了hds的厂家。交换机有crc的报错。今天把所有的线都换了。san里只有接11port的端口又出现了faillink。多路径软件有设置的。

51.png


这个就是健康检查默认5分钟。

收起
互联网服务 · 2016-08-04
浏览4591
skilljiangskilljiang存储架构师COSCON
HDLM的版本和OS的版本是否是官方建议的?另外,看看交换机端有没有CRC的错误?显示全部

HDLM的版本和OS的版本是否是官方建议的?另外,看看交换机端有没有CRC的错误?

收起
轨道交通 · 2016-08-02
浏览4260
l565487064l565487064系统工程师福建长威
fast_fail参数设置下显示全部

fast_fail参数设置下

收起
系统集成 · 2016-08-01
浏览4203

提问者

jinruiwei
系统架构师敦阳(宁波)科技有限公司
擅长领域: 服务器存储AIX

相关问题

相关资料

问题状态

  • 发布时间:2016-08-01
  • 关注会员:5 人
  • 问题浏览:8666
  • 最近回答:2016-08-16
  • X社区推广