如何提高告警的有效性?

监控能力建设过程中,监控指标会越来越全面,产生的告警、预警信息也更为丰富,但是大量的告警似乎不能提高运维的效率,因为需要有效处理的告警比例在降低,请问如何提高告警的有效性,或者怎么样突出告警的优先级和相关性?

参与14

4同行回答

北京不眠夜@博云北京不眠夜@博云产品经理公司
现在常见的做法都是加入数据分析,形成AIOps方案,实现智能分析,进而压缩无效告警,提升告警质量。目前,AIOps方案和厂家有很多,但总体效果差强人意,但方向是没问题的,还需要时间积累。告警规则的优化,是经常被忽略的地方。通过,细化告警触发规则,不同业务不同资源提供更加匹配的告警规...显示全部

现在常见的做法都是加入数据分析,形成AIOps方案,实现智能分析,进而压缩无效告警,提升告警质量。目前,AIOps方案和厂家有很多,但总体效果差强人意,但方向是没问题的,还需要时间积累。

告警规则的优化,是经常被忽略的地方。通过,细化告警触发规则,不同业务不同资源提供更加匹配的告警规则也是非常重要的。从源头加强告警的质量,不要什么情况都告警。

再有就是,可以尝试告警与自动化相结合,比如告警出现后,重启服务告警就回复了。这种也是我们运维中场景的解决方案之一。当然,如果重复出现同类情况,就需要高度重视了。同时,服务是否可以直接重启也是需要甄别的。

收起
软件开发 · 2021-11-16
浏览1017
acbogehacbogeh系统工程师富国基金
1.告警抑制,基于时间进行缓存后再告警。亦可根据设备进行抑制,多条告警合为一条2.根据ai算法,产生动态阈值,减少毛刺告警。3.根据2/8法则,减少价值较低的告警,提高黄金指标比例。...显示全部

1.告警抑制,基于时间进行缓存后再告警。亦可根据设备进行抑制,多条告警合为一条
2.根据ai算法,产生动态阈值,减少毛刺告警。
3.根据2/8法则,减少价值较低的告警,提高黄金指标比例。

收起
基金 · 2021-10-28
浏览1200
匿名用户匿名用户
大量告警似乎不能提高运维的效率这么说本来就错误的,告警不是用来提高运维效率,告警是用来提升运维工作饱和度的。显示全部

大量告警似乎不能提高运维的效率这么说本来就错误的,告警不是用来提高运维效率,告警是用来提升运维工作饱和度的。

收起
银行 · 2021-11-01
浏览1162
路人丁路人丁SREAAAA
在 acbogeh 的方法之前,先对告警做数据分析。度量告警量的一个整体情况。显示全部

在 acbogeh 的方法之前,先对告警做数据分析。度量告警量的一个整体情况。

收起
互联网服务 · 2021-11-01
浏览1144

提问者

zhangfan13
项目经理某单位

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2021-10-28
  • 关注会员:6 人
  • 问题浏览:2669
  • 最近回答:2021-11-16
  • X社区推广