在灾备双活或多活架构中,多系统切换中发生脑裂如何判断并解决的?

背景:灾备体系建设,双活或多活架构环境:小型机和x86平台,高端存储vmax200,中端存储vnx5500等,数据库db2现场信息:距离100公里,裸光纤思考:在灾备双活或多活架构中,多系统切换中发生脑裂如何判断并解决的?难点:发生站点级别灾难的自动判断依据?...显示全部

背景:灾备体系建设,双活或多活架构
环境:小型机和x86平台,高端存储vmax200,中端存储vnx5500等,数据库db2
现场信息:距离100公里,裸光纤
思考:在灾备双活或多活架构中,多系统切换中发生脑裂如何判断并解决的?
难点:发生站点级别灾难的自动判断依据?

收起

查看其它 2 个回答njtukang的回答

njtukangnjtukang  项目总监 , 股份制商业银行
半夏蒲公英ydz110yinxin等赞同了此回答

1、脑裂主要一般说的是一些部件高可用协议层面,两个节点同时认为自己为主节点。在双活架构下,一般数据中心级别切换一般需要人工介入,全部自动化触发同城切换的案例我还没有见到(一方面监控主要、切换工具自身可能存在故障或者误判,并且概率较发生数据中心故障更高。第二,切换过程也包含风险,切换在部分环节需要人工介入)。人工条件下,一般不存在脑裂,是由人工指定主节点,备节点。在人工介入情况下,确实需要保证故障节点不再承载交易,不然会出现数据紊乱。一般可考虑从源头上封禁导向故障节点的流量,也可尝试在故障节点进行关机操作,但是不一定能够成功。
2、站点级建议从业务交易角度判别,因为技术故障场景很多,对于业务的影响也难以第一时间判断。其次,为了防止业务监控的误判,也独立增加一套独立的监控手段,或者可以通过收集客户反馈进行辅助验证。但是全面、快速、准确的业务影响还是依靠监控,一般业务反馈需要时间,汇总,分析以及精准度问题

 2019-05-23
浏览1016

回答者

njtukang项目总监, 股份制商业银行

回答状态

  • 发布时间:2019-05-23
  • 关注会员:6 人
  • 回答浏览:1016