如何提高告警的有效性？

监控能力建设过程中，监控指标会越来越全面，产生的告警、预警信息也更为丰富，但是大量的告警似乎不能提高运维的效率，因为需要有效处理的告警比例在降低，请问如何提高告警的有效性，或者怎么样突出告警的优先级和相关性？

参与14

4同行回答
全部行业
全部行业 基金 互联网服务 银行 软件开发
|
按赞同排序
按时间排序

现在常见的做法都是加入数据分析，形成AIOps方案，实现智能分析，进而压缩无效告警，提升告警质量。目前，AIOps方案和厂家有很多，但总体效果差强人意，但方向是没问题的，还需要时间积累。

告警规则的优化，是经常被忽略的地方。通过，细化告警触发规则，不同业务不同资源提供更加匹配的告警规则也是非常重要的。从源头加强告警的质量，不要什么情况都告警。

再有就是，可以尝试告警与自动化相结合，比如告警出现后，重启服务告警就回复了。这种也是我们运维中场景的解决方案之一。当然，如果重复出现同类情况，就需要高度重视了。同时，服务是否可以直接重启也是需要甄别的。

软件开发 · 2021-11-16

系统工程师富国基金

1.告警抑制，基于时间进行缓存后再告警。亦可根据设备进行抑制，多条告警合为一条
2.根据ai算法，产生动态阈值，减少毛刺告警。
3.根据2/8法则，减少价值较低的告警，提高黄金指标比例。

匿名用户

大量告警似乎不能提高运维的效率这么说本来就错误的，告警不是用来提高运维效率，告警是用来提升运维工作饱和度的。

在 acbogeh 的方法之前，先对告警做数据分析。度量告警量的一个整体情况。

互联网服务 · 2021-11-01