如何应对报警风暴带来的挑战?

为了避免遗漏故障,运维工程师常常会在监控系统中定制大量的监控指标和报警规则,从而建立起从网络到机器、从实例到模块、再到上层业务的立体化监控。立体化的监控虽然极大提高了故障发现的能力,但是很容易导致一个故障触发大量报警,造成报警风暴。请问针对这种情况,有没有好的...显示全部

为了避免遗漏故障,运维工程师常常会在监控系统中定制大量的监控指标和报警规则,从而建立起从网络到机器、从实例到模块、再到上层业务的立体化监控。立体化的监控虽然极大提高了故障发现的能力,但是很容易导致一个故障触发大量报警,造成报警风暴。

请问针对这种情况,有没有好的解决方案?

收起
参与7

查看其它 1 个回答jason2006xu的回答

jason2006xujason2006xu  技术经理 , 昆仑银行

可以采用告警压缩功能,告警压缩包含告警合并、通知合并,告警合并将相似、关联、相同的告警合并到一个父告警,比起以往的海量告警,告警合并极大的提高了告警可读性、准确性。通知合并减少了不必要的通知,能让我们最快的定位有意义告警。But,通知合并内容较少,是否适合使用,还需要看大家各自的业务环境 ,另外建议告警升级功能,也可以指定规则实现告警相关性分析。

银行 · 2020-01-15
浏览1823

回答者

jason2006xu
技术经理昆仑银行
擅长领域: 系统运维监控云计算

jason2006xu 最近回答过的问题

回答状态

  • 发布时间:2020-01-15
  • 关注会员:4 人
  • 回答浏览:1823
  • X社区推广