活动简介
近年来,作为灾备方案中高级别的双活数据中心解决方案逐渐成为了应对传统灾备难题的一把利剑,它能够解决传统的灾备方案中资源利用率低、可用性差、出现故障时停机时间长、数据恢复慢、风险高等问题,但同时也带来了性能、链路稳定性、数据一致性、脑裂和数据同步逻辑错误等众多规划、实施和运维阶段的难点问题。这其中,存储跨数据中心双活的方案更是双活数据中心架构方案中最重要且最艰难的一项,能否在方案架构选型和设计阶段,顺利地解决和尽量规避这些存储双活的难点问题,对企业IT架构师团队的能力有着极大的考验。
因此,为了帮助企业IT架构师理清和解决存储跨中心双活方案架构的难点,twt社区专门邀请了众多企业IT架构师和存储专家整理了一些方案设计的难点,并特别组织了本次线上交流活动,邀请专家逐一对这些难点进行解析和解答。
主要围绕以下几个核心议题:
1.脑裂风险问题:如何避免脑裂是每个双机系统都要重视的问题,存储双活系统尤其如此,脑裂会带来长时间的存储读写IO HANG住,造成重大影响。
2.性能影响问题:因为双活系统在写入数据时,会写两次数据,尤其是通过复制功能写到远端存储的过程,传输链路的性能也会影响整体性能。
3.数据一致性风险问题:当写入数据时,在复制过程中,数据传递是在缓存中进行的,这样做的好处是提升了性能,问题是当出现异常宕机事件时,就会导致缓存内的数据不能写入存储中,从而造成数据的不一致。
4.双中心间通讯不可控问题:一是链路稳定状况不可控;二是IO延时指标不可控。这些不可控因素非常容易造成灾难性影响,轻则导致数据库读写性能灾难,重则导致数据库节点直接处于僵死状态。另外,链路的不稳定会导致存储链路频繁切换,甚至会导致集群仲裁频繁发生,这对于业务连续性更是一个灾难。
5.数据同步逻辑错误问题:存储层面的复制技术基本以存储块为单位进行的数据复制,假设数据块发生了逻辑错误,那么存储是无法检测到的,它会继续将坏的数据块儿同步到灾备端,如果因此数据库发生宕机,那么灾备端的数据库也同样无法正常启动。
6.存储网络故障泛滥问题:两个数据中心的SAN网络打通,整合为一张大的SAN网络,可能会因为局部的存储网络故障而波及到整个存储网络,造成重大影响。
7.集群仲裁一致性问题:所谓的仲裁一致性问题,是指双中心之间的双活存储集群和数据库集群的仲裁结果是否能保证一致性。当不一致时,对业务系统将造成灾难性影响。
8.存储多路径控制的策略问题:倘若采用存储厂商自己的多路径,可能存在兼容性问题。同时多路径策略中,对路径的选择策略是否正确是存储双活的关键点;发生存储故障切换时,主机又如何快速切换到其他存储路径。
9.存储双活后的集群保护问题:通常存储双活的所有存储节点都在一个双活集群当中,那么这个双活集群的保护也是个难点,如何结合其他灾备技术实现双活集群的灾备保护,实现两地三中心甚至多地多中心的灾备架构。
10.私有云存储解决方案相结合的问题:存储双活方案如何有效和私有云存储解决方案相互结合,也是个需要考量的问题。