基于存储双活的应急演练要注意哪些场景？

既然“脑裂”大概率会发生，如何做好日常的应急演练，来提升脑裂时存储读写IO HANG住等故障下的应急能力？
1、应当设置哪些具体的故障演练场景；
2、演练过程应当注意哪些细节，以便于检验防止脑裂的可靠性和应急能力；

参与11

查看其它 1 个回答wangyf的回答

一般故障场景下，双活系统在发生组件级故障的时候，会自动切换、自动仲裁，不影响业务也不需要人为干预，而且 vplex 在失败组件被修复后基本可以自动恢复到双活状态，需要人为干预的地方很少，这些场景更多的是验证而非演练，比如上线之前把这些故障场景都测一遍，看看是否能无缝接管业务。

演练的目的主要是为了增加操作的熟练程度，提高切换效率和成功率，内容应为需要人为干预的场景，VPLEX双活架构下，一般只有当发生了双点故障的时候，才可能需要人为介入去恢复系统，比如仲裁节点和生产节点同时发生了灾难。

对于双点故障的场景，需要注意的是两个故障坏的顺序不同，可能导致的结果不同，是 A 先坏 B 后坏，还是 AB 同时坏，结果可能是不一样的，需要全面地设计和考虑故障场景。

硬件生产 · 2020-09-03