作为运维人。面对容灾演练,心里一定是矛盾的。一方面演练是为了应对突发的问题,是为了更好的熟练整个系统的应急方案。但另一方面,又随着系统的复杂,业务的重要而担心在演练中出现意外而导致不应该出现的问题。
无论之前的准备方案多么充分。总会有概率因为各种意想不到的情况发生而导致事故的发生。我想很多运维人都有过同样的经历,但是应急方案不定期进行演练,真的发生故障的时候有会出现更大的风险和隐患。虽然这是一种矛盾的情况,但是大多数人还是选择定期进行应急方案预演,毕竟。应急方案就是为了保证在突发事件时保证事故的损害降到最低,虽然预演方案同样存在风险,但这样的风险如果放任不管,等到系统出现大问题,应急方案没有发挥作用的时候才是真的灾难,而对于应急方案的预演。我想无非就是认真,认真,再认真。
1,仔细评估应急方案,最好有多个相关部门的主要人员共同商议,确保应急方案中所有的细节对所有的部门都影响最小。
2,仔细评估应急方案的可行性,讨论每一步的技术细节是否有潜在的隐患,讨论那些技术存在风险。尽可能降低应急方案中不可控因素。
3,定期检查应急方案中的所有软硬件设备,线路,定期为应急方案的主要维护人员进行知识充电,保证实施人员的理论与技术同步。
4,定期根据技术,业务,设备的变化而修改应急方案。
5,对应急方案中每一个改动都要进行详细的记录。避免在启用应急方案时由于曾经的变更而引起未知的问题。