双活存储间链路的可靠性和稳定性对系统的影响及可能的应对方案?

参与38

3同行回答

nkj827nkj827项目经理长春长信华天
双活存储间连路如果可能最好选择祼光纤,这样两中心间的连路带宽可以自已控制,可以选择不同运营商的连路从而实现连路冗余,两中心之间的距离不能太远,在10km左右效果最好。显示全部

双活存储间连路如果可能最好选择祼光纤,这样两中心间的连路带宽可以自已控制,可以选择不同运营商的连路从而实现连路冗余,两中心之间的距离不能太远,在10km左右效果最好。

收起
系统集成 · 2017-11-10
jxnxsdengyujxnxsdengyu课题专家组系统工程师江西农信
分两种1.链路中断影响分析:完全的链路中断,势必造成两个存储的脑裂仲裁过程,选举存活的存储继续提供服务,选举过程会将所有存储IO HANG住一段时间,上层的数据库也会因磁盘超时和心跳中断而发生脑裂仲裁,存储恢复IO后,识别到存储的数据库,继续中断上层应用访问,直到将缓存和数据库...显示全部

分两种
1.链路中断
影响分析:
完全的链路中断,势必造成两个存储的脑裂仲裁过程,选举存活的存储继续提供服务,选举过程会将所有存储IO HANG住一段时间,上层的数据库也会因磁盘超时和心跳中断而发生脑裂仲裁,存储恢复IO后,识别到存储的数据库,继续中断上层应用访问,直到将缓存和数据库日志中需要回退的数据回退完成,才恢复上层应用访问。所以整个链路中断,对业务的影响时间很长,这个时间取决于业务TPS(存储端看是IO吞吐量)和两个仲裁时间。
可能的应对办法:
TPS和仲裁时间都无法控制,所以最好的办法只有一个:提升链路的冗余度---裸光纤通常租用两家或两家以上的运营商线路,比如电信和联通,电信的裸光纤也需要冗余,联通的裸光纤也需要冗余,防止单根裸光纤意外割断或者损坏。然而单家运营商的裸纤都通常在一个弱点井中,一起意外割断的事情常有,所以需要两家运营商互相冗余。这两家运营商裸纤的路线还不能一致,弱电井需要在不同的街道,并且分别走不同的路线到达目的地。
2.链路质量
影响分析:
链路质量包括光衰、抖动和带宽。由于双活存储需要实时互相同步写IO,链路质量的不可靠会导致同步时断时续,而这个写同步是要求必须完成之后,才完成写周期,否则数据的一致性无法得到保证,所以该问题所导致的结果就是上层数据库或者应用响应越来越慢,直至业务超时,甚至当底层存储写IO超时到了一定程度时,会造成上层的数据库挂起,需要人工重启数据库才能恢复,后果比链路中断还严重,RTO也更长。
可能的应对办法:
一方面,光衰和抖动无法控制,只能靠波分设备去探测,发现光衰和抖动,立即中断该链路,切向备链路,这对后端的SAN网络无感知,但对波分设备的要求很高,需要购买和建设时注意。至于带宽,可以监测,达到带宽预警阈值后,可向运营商申请提升带宽。另一方面,对于链路质量的监测机制一定要在建设存储双活或者其他双活之前建立,由于是运营商的链路,链路经过了多少中继、多少设备我们是不得知的,我们只能在波分端建立有效的监测机制,有些波分设备也有专门的监控软件支持。而且也要要求和运营商建立监测联动机制,运营商监测到链路质量(是质量而不是中断)有问题,也需要第一时间告知,做出合理的决策。另一方面,也是尽量减轻链路质量所带来的影响,降低写IO同步的频率,意味着,性能影响被弱化,被控制器、数据库、操作系统等层层缓存暂存的写数据,会减少跨站点写的次数,进一步弱化链路质量所会带来的影响。

收起
银行 · 2017-11-10
mxinmxin资深工程师上海宝信软件股份有限公司
存储双活已经随着超融合的出现边缘化了,个人认为如果是新项目,上存储双活要慎重。显示全部

存储双活已经随着超融合的出现边缘化了,个人认为如果是新项目,上存储双活要慎重。

收起
IT咨询服务 · 2017-11-10
浏览1899

提问者

duliye
系统架构师ABC
擅长领域: 云计算容器容器云

问题来自

相关问题

相关文章

问题状态

  • 发布时间:2017-11-08
  • 关注会员:4 人
  • 问题浏览:5268
  • 最近回答:2017-11-10
  • X社区推广