自动化运维风险控制问题?

自动化运维确实可以给运维人员带来方便,减轻工作量,但是自动化运维也很有可能因为出错导致不可逆的生产故障,应如何解决这样的问题?显示全部

自动化运维确实可以给运维人员带来方便,减轻工作量,但是自动化运维也很有可能因为出错导致不可逆的生产故障,应如何解决这样的问题?

收起
参与11

返回wykkx的回答

wykkxwykkx系统架构师某基金公司

首先,所有的自动化功能模块的本质都是落到代码层面,那么就需要对自动化运维功能的代码进行测试,适用于开发项目管理的流程;二是对于一些删除或者修改类的操作,需要考虑double check和回滚方案,对于不能回滚的操作不能做(这点其实和手工操作是没有区别的);三是灰度策略,可以采用灰度的方式来验证自动化操作结果和预期是否一致,如果一致则继续进行,如果不一致则需要进行回滚;四是监控配合,监控系统能够及时发现有问题的操作并及时报警;五是权限管理,对于能够操作自动化运维平台的,需要有严格的权限控制;六是通过api对接的系统,需要有鉴权机制。

基金 · 2018-08-02
浏览1676

回答者

wykkx
wykkx0412
系统架构师某基金公司
擅长领域: 云计算容器系统运维

wykkx 最近回答过的问题

回答状态

  • 发布时间:2018-08-02
  • 关注会员:4 人
  • 回答浏览:1676
  • X社区推广