既然“脑裂”大概率会发生,如何做好日常的应急演练,来提升脑裂时存储读写IO HANG住等故障下的应急能力?
1、应当设置哪些具体的故障演练场景;
2、演练过程应当注意哪些细节,以便于检验防止脑裂的可靠性和应急能力;
一般故障场景下,双活系统在发生组件级故障的时候,会自动切换、自动仲裁,不影响业务也不需要人为干预,而且 vplex 在失败组件被修复后基本可以自动恢复到双活状态,需要人为干预的地方很少,这些场景更多的是验证而非演练,比如上线之前把这些故障场景都测一遍,看看是否能无缝接管业务。
演练的目的主要是为了增加操作的熟练程度,提高切换效率和成功率,内容应为需要人为干预的场景,VPLEX双活架构下,一般只有当发生了双点故障的时候,才可能需要人为介入去恢复系统,比如仲裁节点和生产节点同时发生了灾难。
对于双点故障的场景,需要注意的是两个故障坏的顺序不同,可能导致的结果不同,是 A 先坏 B 后坏,还是 AB 同时坏,结果可能是不一样的,需要全面地设计和考虑故障场景。