灾备端可真实接管这个我个人觉得不是太对,应用级灾备不代表自动切换,更不代表100%做到数据不丢失。
1、不管是灾备中心还是生产中心,所有的操作都是有规则、有严格流程的,只有按照标准操作,咱们的数据中心才能对外提供服务,技术上能做到两端的一致性,但也是有一定前提的。
2、不是每次异常都需要让灾备端来接管的,每一次灾备演练都需要投入大量的人力,更别说真实的灾备事件了,至少我们是不会选择让应用在出现异常的时候自动切换到灾备端。
3、我个人认为异地灾备本身就是极小概率事件。
可以从四个方面去保证:
一是从变更流程上去保证,在设计变更流程时需要考虑到灾备节点的同步变更,落实到流程节点中的责任人,并在变更步骤中体现详细的变更操作,并具备专人审核;
二是必须借助自动化手段去检测一致性,做应用灾备时,不仅考虑到如何做成,如何一次性保证灾备应用节点和生产的一致性,更要考虑如何去保证增量的一致性,通过自动化平台定时检测这些增量部分和变化部分,并通知相关人员注意。
三是借助自动化投产去保证,借助自动化投产工具,批量同步变更生产节点和灾备节点。
四是从真实演练中去发现,通过上面三种方式仅仅是从行为上保证了技术上的一致性,灾备节点真正是否可以真实有效接管业务,依旧需要每年多次的演练去保证,发现问题可以反过来去优化流程、优化自动化监测手段和自动化投产工具,相互相成,同时也可以完善应急预案。