监控能力建设过程中,监控指标会越来越全面,产生的告警、预警信息也更为丰富,但是大量的告警似乎不能提高运维的效率,因为需要有效处理的告警比例在降低,请问如何提高告警的有效性,或者怎么样突出告警的优先级和相关性?
现在常见的做法都是加入数据分析,形成AIOps方案,实现智能分析,进而压缩无效告警,提升告警质量。目前,AIOps方案和厂家有很多,但总体效果差强人意,但方向是没问题的,还需要时间积累。
告警规则的优化,是经常被忽略的地方。通过,细化告警触发规则,不同业务不同资源提供更加匹配的告警规则也是非常重要的。从源头加强告警的质量,不要什么情况都告警。
再有就是,可以尝试告警与自动化相结合,比如告警出现后,重启服务告警就回复了。这种也是我们运维中场景的解决方案之一。当然,如果重复出现同类情况,就需要高度重视了。同时,服务是否可以直接重启也是需要甄别的。
收起1.告警抑制,基于时间进行缓存后再告警。亦可根据设备进行抑制,多条告警合为一条
2.根据ai算法,产生动态阈值,减少毛刺告警。
3.根据2/8法则,减少价值较低的告警,提高黄金指标比例。