【经验分享】应急演练的矛盾

     作为运维人。面对容灾演练,心里一定是矛盾的。一方面演练是为了应对突发的问题,是为了更好的熟练整个系统的应急方案。但另一方面,又随着系统的复杂,业务的重要而担心在演练中出现意外而导致不应该出现的问题。

    无论之前的准备方案多么充分。总会有概率因为各种意想不到的情况发生而导致事故的发生。我想很多运维人都有过同样的经历,但是应急方案不定期进行演练,真的发生故障的时候有会出现更大的风险和隐患。虽然这是一种矛盾的情况,但是大多数人还是选择定期进行应急方案预演,毕竟。应急方案就是为了保证在突发事件时保证事故的损害降到最低,虽然预演方案同样存在风险,但这样的风险如果放任不管,等到系统出现大问题,应急方案没有发挥作用的时候才是真的灾难,而对于应急方案的预演。我想无非就是认真,认真,再认真。

1,仔细评估应急方案,最好有多个相关部门的主要人员共同商议,确保应急方案中所有的细节对所有的部门都影响最小。

2,仔细评估应急方案的可行性,讨论每一步的技术细节是否有潜在的隐患,讨论那些技术存在风险。尽可能降低应急方案中不可控因素。

3,定期检查应急方案中的所有软硬件设备,线路,定期为应急方案的主要维护人员进行知识充电,保证实施人员的理论与技术同步。

4,定期根据技术,业务,设备的变化而修改应急方案。

5,对应急方案中每一个改动都要进行详细的记录。避免在启用应急方案时由于曾经的变更而引起未知的问题。

参与6

2同行回答

mmsc5166mmsc5166系统工程师某金融公司信息技术中心
总结使人进步显示全部

总结使人进步

收起
金融其它 · 2017-03-31
浏览1959
qq373793057qq373793057课题专家组系统工程师某银行
的确,这个矛盾是运维人必须要面对的,越是复杂的系统架构进行演练时存在的风险也就越大。但如果不进行演练切换,没有一个好的应急处理机制,那么一旦出现问题,风险和责任就会转嫁到我们头上。所以,演练不是目的,我们的目的是不断提升系统的高可用性、熟知各个系统的应急处理流程。...显示全部

的确,这个矛盾是运维人必须要面对的,越是复杂的系统架构进行演练时存在的风险也就越大。但如果不进行演练切换,没有一个好的应急处理机制,那么一旦出现问题,风险和责任就会转嫁到我们头上。所以,演练不是目的,我们的目的是不断提升系统的高可用性、熟知各个系统的应急处理流程。这,是我们运维人在面对这种矛盾时,应该去努力的方向。

收起
银行 · 2017-03-31
浏览1931

提问者

pysx0503
pysx0503153369
系统工程师第十区。散人
擅长领域: 存储备份服务器

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2017-03-27
  • 关注会员:4 人
  • 问题浏览:4889
  • 最近回答:2017-03-31
  • X社区推广