如何使用自动化工具智能发现并自动处理故障?

   在用户运维过程中,如何结合使用自动化工具比如ansible或zabbix监控,按照既定的配置策略和脚本智能告警并且自动处理解决一些普通故障,并通过微信自动发送报告处理结果到相关人员?
比如检测到文件系统达到90%以上,自动触发zabbix告警(微信告警到相关人员),然后智能化自动按照既定策略自动扩容文件系统使得空间满足到80%以下(在自动判断存储空间足够的情况下),或者发现系统CPU 内存在没有批处理业务的情况下,占用突然异常很高,自动停止或重启占用最高的进程,并通过微信自动发送报告处理结果到相关人员。

参与14

3 同行回答

LINE2008 LINE2008 系统工程师 北京北鹰吉成科技有限公司
这个要根据业务实际情况定制一些脚本,我们目前是这么做的。希望对你有帮助显示全部

这个要根据业务实际情况定制一些脚本,我们目前是这么做的。希望对你有帮助

收起
互联网服务 · 2019-07-31
浏览2656
asdf-asdf asdf-asdf 研究学者 cloudstone
可以用几个相关脚本完成,一个固定的简单场景如果有其他业务逻辑判断等需要一个辅助的流程平台完成建议进流程平台建设完成 相关业务逻辑显示全部

可以用几个相关脚本完成,一个固定的简单场景
如果有其他业务逻辑判断等需要一个辅助的流程平台完成
建议进流程平台建设完成 相关业务逻辑

收起
软件开发 · 2019-08-02
浏览2556
Xiaofeilong Xiaofeilong 产品经理 广州云新信息技术有限公司
这样做;逻辑上面比较简单;用角本来实现;其实最担心的不是技术;而是流程与后续;如果每次自动扩容;但是不知道是什么原因造成的?如果每次自动停掉了某个应用或者是重启了某个进程?后果是什么呢?其实最难的位置应该是在这里!...显示全部

这样做;逻辑上面比较简单;用角本来实现;其实最担心的不是技术;而是流程与后续;如果每次自动扩容;但是不知道是什么原因造成的?如果每次自动停掉了某个应用或者是重启了某个进程?后果是什么呢?其实最难的位置应该是在这里!

收起
软件开发 · 2019-08-01
浏览2641

提问者

saric
saric 0 0 5
系统架构师 FNT
擅长领域: 灾备存储云计算
评论66

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2019-07-30
  • 关注会员:5 人
  • 问题浏览:4294
  • 最近回答:2019-08-02
  • X社区推广