我来暂时性的结个贴吧,因为这个问题后来又出现过几次,我们请电信的人员也做过相应的测试,结果并没有明显的改变,后来我请教了IBM的部分资深的专家,修改了几个参数,目前问题暂时得到了解决,因为每次链路断开有个周期性,所以不知道最终是不是一定好了,但是我感觉这次调优算是最优进展的一次调优,感谢各位兄弟的关注和各位老师的指导。
后来我在IBM SVC专家的建议下,在不影响现有服务稳定性的情况下,通过修改gmlinktolerance和gmmaxhostdelay参数,并将两地带宽叠加放大,同时将使用率从60%调整至100%,从SVC层面去降低链路抖动对现有GM镜像的影响,目前参数已经生效,我和韩工会密切关注运行状态,观察参数调整后,对镜像稳定的影响。
gm内部算法里面,这俩是容忍链路抖动时间的参数,比方原有值为30s,那么在这30s内,链路抖动超过15s,那么内部算法就判定异常,就会强制断开,在链路不稳定的情况下,值偏低就会容易断开,后来经过我们协商,将值设置为300s,这样取值样本时间会加长,以我们经验来看,这样能够提高内部算法对链路异常的容忍度。