SVC远程异步镜像GM不定时中断?

53545670.jpg

53545670.jpg

590636244.jpg
590636244.jpg

1725449455.jpg
1725449455.jpg

2095677976.jpg
2095677976.jpg

有一个企业客户,两套SVC异地容灾架构,本地是后端是一台V7000,一台HDS vps 400做实时镜像,几十公里外的灾备机房一套SVC,后端一台V7000做异步镜像,两地链路距离相隔多余25KM,使用的是定制化的40公里长波模块做级联,两边都是博科交换机,生产是新48口的,灾备是利旧原有24口的,中间是两条电信2GB的裸光纤。
在使用了一段时间后,目前出现异步镜像不定期的中断情况。重新启动后,过段时间还是会中断。
SVC没有硬件告警,在光交上面查看情况,在porterrshow里面,灾备的光交上,连接SVC的几个端口误码率比较高,更换端口模块和光纤线后,报错情况有所缓解,但远程级联的端口报错依然存在。镜像不定时中断情况依然存在。
目前我有几方面的疑惑,希望和大家一起探讨,请大家帮忙一起看看:
1,光纤不稳定和抖动如何判定,如何查看;
2,SAN端口老是报错,在哪方面影响镜像;
3,由于各批次的设备为逐步上线,目前微码是否有大家遇到过的明显bug
本地SVC (CG8) 微码 7.5.0.6
异地SVC(DH8) 微码 7.6.0.1
本地SAN1 微码7.0.2c
本地SAN2 微码7.0.2c
灾备SAN1 微码6.4.1b
灾备SAN2 微码6.3.1a
4,目前伙伴的速率为2G的60%,镜像之间的速率为默认的50%,此配置需要做进一步调整吗?
请大家多帮忙看看,可能的问题出在哪里,我这里能够随时提供相关日志。

参与27

4同行回答

jxnxsdengyujxnxsdengyu课题专家组系统工程师江西农信
几点建议:1.可以先将GM改为GM WITH CHANG VOLUME,这样即使中断了,也可以增量续传。2.查看两个级联交换机级联端口的光功率(接收和发送),看是否有光衰现象。3.对于本地两个存储的VDM,该现象不影响,只是影响异步的那份数据,但对整体存储性能无影响。4.两套SVC的版本可以升级为一致,但...显示全部

几点建议:
1.可以先将GM改为GM WITH CHANG VOLUME,这样即使中断了,也可以增量续传。
2.查看两个级联交换机级联端口的光功率(接收和发送),看是否有光衰现象。
3.对于本地两个存储的VDM,该现象不影响,只是影响异步的那份数据,但对整体存储性能无影响。
4.两套SVC的版本可以升级为一致,但问题应该不在这。
5.两套SAN交换机的版本可以升级为一致,差距有些大,有可能是问题的原因,需要结合第2点的判断。

收起
银行 · 2017-11-10
浏览3293
王磊磊 邀答
  • 邓工,感谢关注。请帮忙解释下步骤二我该如何在光交上操作,谢谢支持。
    2017-11-11
ZhuJun2014ZhuJun2014存储工程师IBM
先贴一下porterrshow和把怀疑有问题端口的portstatshow的输出。对于SAN SW,最新微码是7.4.x版本,现有版本有点低。另外,DH8的FC端口是8Gb还是16Gb的?如果链路质量不稳定,响应时间经常超过80ms,会引起partnership中断。...显示全部

先贴一下porterrshow和把怀疑有问题端口的portstatshow的输出。对于SAN SW,最新微码是7.4.x版本,现有版本有点低。另外,DH8的FC端口是8Gb还是16Gb的?
如果链路质量不稳定,响应时间经常超过80ms,会引起partnership中断。

收起
硬件生产 · 2017-11-10
浏览3023
  • 谢谢朱老师回答。
    2017-11-13
  • Port 23这个端口的crc err太多。如果不是cable问题,那么就是SFP的问题。另外,这个端口的vc 2-3的buffer credit zero计数器很高,说明通过这个vc传输的数据,碰到了链路传输问题,导致没有buffer credit可用,具体会体现在IO超时上。
    2017-11-13
penguin23penguin23系统运维工程师广州佳杰科技有限公司
您遇到的存储镜像链路问题,我很久之前也有遇到。当时也由SAN存储的 IBM工程师帮忙分析,最后解决是调整了SAN交换机:portcfglongdistance 端口号 LE显示全部

您遇到的存储镜像链路问题,我很久之前也有遇到。
当时也由SAN存储的 IBM工程师帮忙分析,最后解决是调整了SAN交换机:portcfglongdistance 端口号 LE

收起
保险 · 2017-12-07
浏览2794
peterzhupeterzhu系统工程师江苏农信
我来暂时性的结个贴吧,因为这个问题后来又出现过几次,我们请电信的人员也做过相应的测试,结果并没有明显的改变,后来我请教了IBM的部分资深的专家,修改了几个参数,目前问题暂时得到了解决,因为每次链路断开有个周期性,所以不知道最终是不是一定好了,但是我感觉这次调优算是最优进...显示全部

我来暂时性的结个贴吧,因为这个问题后来又出现过几次,我们请电信的人员也做过相应的测试,结果并没有明显的改变,后来我请教了IBM的部分资深的专家,修改了几个参数,目前问题暂时得到了解决,因为每次链路断开有个周期性,所以不知道最终是不是一定好了,但是我感觉这次调优算是最优进展的一次调优,感谢各位兄弟的关注和各位老师的指导。

  后来我在IBM SVC专家的建议下,在不影响现有服务稳定性的情况下,通过修改gmlinktolerance和gmmaxhostdelay参数,并将两地带宽叠加放大,同时将使用率从60%调整至100%,从SVC层面去降低链路抖动对现有GM镜像的影响,目前参数已经生效,我和韩工会密切关注运行状态,观察参数调整后,对镜像稳定的影响。
gm内部算法里面,这俩是容忍链路抖动时间的参数,比方原有值为30s,那么在这30s内,链路抖动超过15s,那么内部算法就判定异常,就会强制断开,在链路不稳定的情况下,值偏低就会容易断开,后来经过我们协商,将值设置为300s,这样取值样本时间会加长,以我们经验来看,这样能够提高内部算法对链路异常的容忍度。
收起
银行 · 2017-12-07
浏览2874

提问者

peterzhu
系统工程师江苏农信
擅长领域: 服务器系统管理存储

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2017-11-10
  • 关注会员:4 人
  • 问题浏览:6931
  • 最近回答:2017-12-07
  • X社区推广