存储双活中,到远端灾备机房发生链路抖动、或链路失效时,存储端会发生什么操作?

存储双活中,到远端灾备机房发生链路抖动、或链路失效时,存储端会发生什么操作?上端主机多路径软件后端会有什么操作?主机操作系统及数据库会有多久时间的IO暂停或io感知?显示全部

存储双活中,到远端灾备机房发生链路抖动、或链路失效时,存储端会发生什么操作?上端主机多路径软件后端会有什么操作?主机操作系统及数据库会有多久时间的IO暂停或io感知?

收起
参与7

查看其它 1 个回答EndlessRain的回答

EndlessRainEndlessRain  (网吧资深的网管) , 网吧

1)抖动和失效,两个概念,会导致两个不同的结果。
如果是失效1条链路,自然有备用路径。如果都失效,通常仲裁机制会介入,选举一个site继续提供服务。
如果是抖动,我理解为时断时通,这就大麻烦。从应用主机到存储很多IO被排至队列,持续会导致IO hang住。一个直观的结果是,应用程序的IO延迟被放大。IOPS数量降低。
2)Front end应用多路径软件不会有任何动作,因为Front end路径显示健康的,其次,由于这个问题发生在两个site之间的Mirror /replication 路径上。
3)我的POC经验是:Linux内置多路径通常5秒的内完成路径转移,数据库-Oracle RAC转移时间是可以设置的。往常我会让工程师设置超过4秒。其它数据库经验少。如果windows FC环境下,原生的DSM应该要8秒。AIX也能在4秒内完成。如果数据库运行在vmware,由NMP切换,数据库几乎感知不到切换过程,另外,NMP是我遇到优化最好的multipath。

PS,--链路抖动的问题,本质:是发生在链路品质的问题,通常用户自行扯的单模比较稳定,距离稍远用的DWDM就很容易出现。在以往POC接触的产品上,类似大厂IBM PPRC,HDS trueCopy,EMC SRDF,也包括一些小而精炼的小厂如FalconStor NSS,早期ScaleIO,DataCore symphony。大家对此问题有不同的改善方式,测试结果的可接受程度也有不同,尤其是具备caching to caching同步机制产品。总之,选型之前一定要设备入场去测试。最好可以跑一段时间。

IT其它 · 2019-05-21
浏览1731

回答者

EndlessRain
(网吧资深的网管)网吧
擅长领域: 存储灾备虚拟化

EndlessRain 最近回答过的问题

回答状态

  • 发布时间:2019-05-21
  • 关注会员:3 人
  • 回答浏览:1731
  • X社区推广