银行SVC 异地容灾链路中断 IBM storwize v7000 光纤抖动异步镜像

SVC远程异步镜像GM不定时中断？

53545670.jpg

590636244.jpg

1725449455.jpg

2095677976.jpg

有一个企业客户，两套SVC异地容灾架构，本地是后端是一台V7000，一台HDS vps 400做实时镜像，几十公里外的灾备机房一套SVC，后端一台V7000做异步镜像，两地链路距离相隔多余25KM，使用的是定制化的40公里长波模块做级联，两边都是博科交换机，生产是新48口的，灾备是利旧原有24口的，中间是两条电信2GB的裸光纤。
在使用了一段时间后，目前出现异步镜像不定期的中断情况。重新启动后，过段时间还是会中断。
SVC没有硬件告警，在光交上面查看情况，在porterrshow里面，灾备的光交上，连接SVC的几个端口误码率比较高，更换端口模块和光纤线后，报错情况有所缓解，但远程级联的端口报错依然存在。镜像不定时中断情况依然存在。
目前我有几方面的疑惑，希望和大家一起探讨，请大家帮忙一起看看：
1，光纤不稳定和抖动如何判定，如何查看；
2，SAN端口老是报错，在哪方面影响镜像；
3，由于各批次的设备为逐步上线，目前微码是否有大家遇到过的明显bug
本地SVC (CG8) 微码 7.5.0.6
异地SVC（DH8）微码 7.6.0.1
本地SAN1 微码7.0.2c
本地SAN2 微码7.0.2c
灾备SAN1 微码6.4.1b
灾备SAN2 微码6.3.1a
4，目前伙伴的速率为2G的60%，镜像之间的速率为默认的50%，此配置需要做进一步调整吗？
请大家多帮忙看看，可能的问题出在哪里，我这里能够随时提供相关日志。

关注4

参与27

4同行回答
全部行业
全部行业 银行 硬件生产 保险
|
按赞同排序
按时间排序

jxnxsdengyu

系统工程师江西农信

几点建议：
1.可以先将GM改为GM WITH CHANG VOLUME，这样即使中断了，也可以增量续传。
2.查看两个级联交换机级联端口的光功率（接收和发送），看是否有光衰现象。
3.对于本地两个存储的VDM，该现象不影响，只是影响异步的那份数据，但对整体存储性能无影响。
4.两套SVC的版本可以升级为一致，但问题应该不在这。
5.两套SAN交换机的版本可以升级为一致，差距有些大，有可能是问题的原因，需要结合第2点的判断。

收起

银行 · 2017-11-10

查看赞同的人

王磊磊邀答

peterzhu
邓工，感谢关注。请帮忙解释下步骤二我该如何在光交上操作，谢谢支持。
2017-11-11
赞同
评论

添加评论

ZhuJun2014存储工程师IBM

先贴一下porterrshow和把怀疑有问题端口的portstatshow的输出。对于SAN SW，最新微码是7.4.x版本，现有版本有点低。另外，DH8的FC端口是8Gb还是16Gb的？
如果链路质量不稳定，响应时间经常超过80ms，会引起partnership中断。

收起

硬件生产 · 2017-11-10

查看赞同的人

peterzhu
谢谢朱老师回答。
2017-11-13
赞同
评论
ZhuJun2014
Port 23这个端口的crc err太多。如果不是cable问题，那么就是SFP的问题。另外，这个端口的vc 2-3的buffer credit zero计数器很高，说明通过这个vc传输的数据，碰到了链路传输问题，导致没有buffer credit可用，具体会体现在IO超时上。
2017-11-13
赞同
评论

添加评论

penguin23系统运维工程师广州佳杰科技有限公司

您遇到的存储镜像链路问题，我很久之前也有遇到。
当时也由SAN存储的 IBM工程师帮忙分析，最后解决是调整了SAN交换机：portcfglongdistance 端口号 LE

收起

保险 · 2017-12-07

peterzhu系统工程师江苏农信

我来暂时性的结个贴吧，因为这个问题后来又出现过几次，我们请电信的人员也做过相应的测试，结果并没有明显的改变，后来我请教了IBM的部分资深的专家，修改了几个参数，目前问题暂时得到了解决，因为每次链路断开有个周期性，所以不知道最终是不是一定好了，但是我感觉这次调优算是最优进展的一次调优，感谢各位兄弟的关注和各位老师的指导。

  后来我在IBM SVC专家的建议下，在不影响现有服务稳定性的情况下，通过修改gmlinktolerance和gmmaxhostdelay参数，并将两地带宽叠加放大，同时将使用率从60%调整至100%，从SVC层面去降低链路抖动对现有GM镜像的影响，目前参数已经生效，我和韩工会密切关注运行状态，观察参数调整后，对镜像稳定的影响。
gm内部算法里面，这俩是容忍链路抖动时间的参数，比方原有值为30s，那么在这30s内，链路抖动超过15s，那么内部算法就判定异常，就会强制断开，在链路不稳定的情况下，值偏低就会容易断开，后来经过我们协商，将值设置为300s，这样取值样本时间会加长，以我们经验来看，这样能够提高内部算法对链路异常的容忍度。

收起

银行 · 2017-12-07

SVC远程异步镜像GM不定时中断？

4同行回答
全部行业
全部行业 银行 硬件生产 保险
|
按赞同排序
按时间排序

提问者

问题来自

相关问题

相关资料

相关文章

问题状态

SVC远程异步镜像GM不定时中断？

4同行回答全部行业全部行业银行硬件生产保险|按赞同排序按时间排序

提问者

问题来自

相关问题

相关资料

相关文章

问题状态

4同行回答
全部行业
全部行业银行硬件生产保险
|
按赞同排序
按时间排序