自动化运维风险控制问题?

自动化运维确实可以给运维人员带来方便,减轻工作量,但是自动化运维也很有可能因为出错导致不可逆的生产故障,应如何解决这样的问题?

参与11

1同行回答

wykkxwykkx系统架构师某基金公司
首先,所有的自动化功能模块的本质都是落到代码层面,那么就需要对自动化运维功能的代码进行测试,适用于开发项目管理的流程;二是对于一些删除或者修改类的操作,需要考虑double check和回滚方案,对于不能回滚的操作不能做(这点其实和手工操作是没有区别的);三是灰度策略,可以采用灰度...显示全部

首先,所有的自动化功能模块的本质都是落到代码层面,那么就需要对自动化运维功能的代码进行测试,适用于开发项目管理的流程;二是对于一些删除或者修改类的操作,需要考虑double check和回滚方案,对于不能回滚的操作不能做(这点其实和手工操作是没有区别的);三是灰度策略,可以采用灰度的方式来验证自动化操作结果和预期是否一致,如果一致则继续进行,如果不一致则需要进行回滚;四是监控配合,监控系统能够及时发现有问题的操作并及时报警;五是权限管理,对于能够操作自动化运维平台的,需要有严格的权限控制;六是通过api对接的系统,需要有鉴权机制。

收起
基金 · 2018-08-02
浏览1679

提问者

罗右阳
系统管理员某数据中心
擅长领域: 服务器分布式系统区块链

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2018-08-01
  • 关注会员:4 人
  • 问题浏览:2422
  • 最近回答:2018-08-02
  • X社区推广