自动化运维出错后的风险控制问题

以我行实际案例为例,自动化运维确实可以给运维人员带来方便,减轻工作量。但自动运维有一个致命的缺点:操作透明、运维程序出错后容易导致不可逆的生产故障。请问针对上述问题,有没有好的解决方案。...显示全部

以我行实际案例为例,自动化运维确实可以给运维人员带来方便,减轻工作量。但自动运维有一个致命的缺点:操作透明、运维程序出错后容易导致不可逆的生产故障。

请问针对上述问题,有没有好的解决方案。

收起
参与17

查看其它 2 个回答yaoyan的回答

yaoyanyaoyan系统运维工程师数据中心

运维操作的原理要有清晰明确,包括自动化工具使用的相关手册要写清楚,避免日子久了都习惯用自动化工具没人能说清原理了。工具出问题了必要时候还是得上手尽快完成操作,恢复业务,自动化是为了提供便利,不是为了完全取代人;

自动化脚本或者程序要有规范,要有比较详细的日志,出问题能快速的定位是哪出了问题,从哪儿开始出了差错;

自动化工具在设计的时候就要考虑一些能想到的意外情况,增强容错性,多一些必要的检测,当条件不满足时候可以停下来报警提示;

做好备份体系,有快速切换方案,减少业务影响时间;

要有Plan B。

事业单位 · 2016-06-23
浏览1801

回答者

yaoyan
系统运维工程师数据中心
擅长领域: 自动化运维系统运维安全

回答状态

  • 发布时间:2016-06-23
  • 关注会员:5 人
  • 回答浏览:1801
  • X社区推广