如何使用自动化工具智能发现并自动处理故障?

   在用户运维过程中,如何结合使用自动化工具比如ansible或zabbix监控,按照既定的配置策略和脚本智能告警并且自动处理解决一些普通故障,并通过微信自动发送报告处理结果到相关人员?比如检测到文件系统达到90%以上,自动触发zabbix告警(微信告警到相关人员),然后智能化自动按照...显示全部

   在用户运维过程中,如何结合使用自动化工具比如ansible或zabbix监控,按照既定的配置策略和脚本智能告警并且自动处理解决一些普通故障,并通过微信自动发送报告处理结果到相关人员?
比如检测到文件系统达到90%以上,自动触发zabbix告警(微信告警到相关人员),然后智能化自动按照既定策略自动扩容文件系统使得空间满足到80%以下(在自动判断存储空间足够的情况下),或者发现系统CPU 内存在没有批处理业务的情况下,占用突然异常很高,自动停止或重启占用最高的进程,并通过微信自动发送报告处理结果到相关人员。

收起
参与14

查看其它 2 个回答asdf-asdf的回答

asdf-asdfasdf-asdf研究学者cloudstone

可以用几个相关脚本完成,一个固定的简单场景
如果有其他业务逻辑判断等需要一个辅助的流程平台完成
建议进流程平台建设完成 相关业务逻辑

软件开发 · 2019-08-02

回答者

asdf-asdf
研究学者cloudstone
擅长领域: 云计算服务器系统运维

asdf-asdf 最近回答过的问题

回答状态

  • 发布时间:2019-08-02
  • 关注会员:5 人
  • 回答浏览:2514
  • X社区推广