如何应对报警风暴带来的挑战?

为了避免遗漏故障,运维工程师常常会在监控系统中定制大量的监控指标和报警规则,从而建立起从网络到机器、从实例到模块、再到上层业务的立体化监控。立体化的监控虽然极大提高了故障发现的能力,但是很容易导致一个故障触发大量报警,造成报警风暴。

请问针对这种情况,有没有好的解决方案?

参与7

2同行回答

贺勇贺勇产品研发部总经理Canway
应对告警风暴业界已经有比较成熟的方案,参考架构如下:显示全部

应对告警风暴业界已经有比较成熟的方案,参考架构如下:

收起
系统集成 · 2020-01-15
浏览1835
jason2006xujason2006xu技术经理昆仑银行
可以采用告警压缩功能,告警压缩包含告警合并、通知合并,告警合并将相似、关联、相同的告警合并到一个父告警,比起以往的海量告警,告警合并极大的提高了告警可读性、准确性。通知合并减少了不必要的通知,能让我们最快的定位有意义告警。But,通知合并内容较少,是否适合使用,还需要...显示全部

可以采用告警压缩功能,告警压缩包含告警合并、通知合并,告警合并将相似、关联、相同的告警合并到一个父告警,比起以往的海量告警,告警合并极大的提高了告警可读性、准确性。通知合并减少了不必要的通知,能让我们最快的定位有意义告警。But,通知合并内容较少,是否适合使用,还需要看大家各自的业务环境 ,另外建议告警升级功能,也可以指定规则实现告警相关性分析。

收起
银行 · 2020-01-15
浏览1843

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2020-01-03
  • 关注会员:4 人
  • 问题浏览:2793
  • 最近回答:2020-01-15
  • X社区推广