如何使用自动化工具智能发现并自动处理故障?

   在用户运维过程中,如何结合使用自动化工具比如ansible或zabbix监控,按照既定的配置策略和脚本智能告警并且自动处理解决一些普通故障,并通过微信自动发送报告处理结果到相关人员?比如检测到文件系统达到90%以上,自动触发zabbix告警(微信告警到相关人员),然后智能化自动按照...显示全部

   在用户运维过程中,如何结合使用自动化工具比如ansible或zabbix监控,按照既定的配置策略和脚本智能告警并且自动处理解决一些普通故障,并通过微信自动发送报告处理结果到相关人员?
比如检测到文件系统达到90%以上,自动触发zabbix告警(微信告警到相关人员),然后智能化自动按照既定策略自动扩容文件系统使得空间满足到80%以下(在自动判断存储空间足够的情况下),或者发现系统CPU 内存在没有批处理业务的情况下,占用突然异常很高,自动停止或重启占用最高的进程,并通过微信自动发送报告处理结果到相关人员。

收起
参与14

查看其它 2 个回答Xiaofeilong的回答

XiaofeilongXiaofeilong产品经理广州云新信息技术有限公司

这样做;逻辑上面比较简单;用角本来实现;其实最担心的不是技术;而是流程与后续;如果每次自动扩容;但是不知道是什么原因造成的?如果每次自动停掉了某个应用或者是重启了某个进程?后果是什么呢?其实最难的位置应该是在这里!

软件开发 · 2019-08-01

回答者

Xiaofeilong
产品经理广州云新信息技术有限公司

Xiaofeilong 最近回答过的问题

回答状态

  • 发布时间:2019-08-01
  • 关注会员:5 人
  • 回答浏览:2573
  • X社区推广