如何提高告警的有效性?

监控能力建设过程中,监控指标会越来越全面,产生的告警、预警信息也更为丰富,但是大量的告警似乎不能提高运维的效率,因为需要有效处理的告警比例在降低,请问如何提高告警的有效性,或者怎么样突出告警的优先级和相关性?

参与14

4同行回答

北京不眠夜@博云北京不眠夜@博云产品经理公司
现在常见的做法都是加入数据分析,形成AIOps方案,实现智能分析,进而压缩无效告警,提升告警质量。目前,AIOps方案和厂家有很多,但总体效果差强人意,但方向是没问题的,还需要时间积累。告警规则的优化,是经常被忽略的地方。通过,细化告警触发规则,不同业务不同资源提供更加匹配的告警规...显示全部

现在常见的做法都是加入数据分析,形成AIOps方案,实现智能分析,进而压缩无效告警,提升告警质量。目前,AIOps方案和厂家有很多,但总体效果差强人意,但方向是没问题的,还需要时间积累。

告警规则的优化,是经常被忽略的地方。通过,细化告警触发规则,不同业务不同资源提供更加匹配的告警规则也是非常重要的。从源头加强告警的质量,不要什么情况都告警。

再有就是,可以尝试告警与自动化相结合,比如告警出现后,重启服务告警就回复了。这种也是我们运维中场景的解决方案之一。当然,如果重复出现同类情况,就需要高度重视了。同时,服务是否可以直接重启也是需要甄别的。

收起
软件开发 · 2021-11-16
浏览1032

提问者

zhangfan13
项目经理某单位

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2021-10-28
  • 关注会员:6 人
  • 问题浏览:2698
  • 最近回答:2021-11-16
  • X社区推广