如何使用自动化工具智能发现并自动处理故障?

   在用户运维过程中,如何结合使用自动化工具比如ansible或zabbix监控,按照既定的配置策略和脚本智能告警并且自动处理解决一些普通故障,并通过微信自动发送报告处理结果到相关人员?比如检测到文件系统达到90%以上,自动触发zabbix告警(微信告警到相关人员),然后智能化自动按照...显示全部

   在用户运维过程中,如何结合使用自动化工具比如ansible或zabbix监控,按照既定的配置策略和脚本智能告警并且自动处理解决一些普通故障,并通过微信自动发送报告处理结果到相关人员?
比如检测到文件系统达到90%以上,自动触发zabbix告警(微信告警到相关人员),然后智能化自动按照既定策略自动扩容文件系统使得空间满足到80%以下(在自动判断存储空间足够的情况下),或者发现系统CPU 内存在没有批处理业务的情况下,占用突然异常很高,自动停止或重启占用最高的进程,并通过微信自动发送报告处理结果到相关人员。

收起
参与14

查看其它 2 个回答LINE2008的回答

LINE2008LINE2008  系统工程师 , 北京北鹰吉成科技有限公司

这个要根据业务实际情况定制一些脚本,我们目前是这么做的。希望对你有帮助

互联网服务 · 2019-07-31
浏览2519

回答者

LINE2008
系统工程师北京北鹰吉成科技有限公司
擅长领域: 服务器存储系统运维

LINE2008 最近回答过的问题

回答状态

  • 发布时间:2019-07-31
  • 关注会员:5 人
  • 回答浏览:2519
  • X社区推广