如何应对报警风暴带来的挑战?

为了避免遗漏故障,运维工程师常常会在监控系统中定制大量的监控指标和报警规则,从而建立起从网络到机器、从实例到模块、再到上层业务的立体化监控。立体化的监控虽然极大提高了故障发现的能力,但是很容易导致一个故障触发大量报警,造成报警风暴。请问针对这种情况,有没有好的...显示全部

为了避免遗漏故障,运维工程师常常会在监控系统中定制大量的监控指标和报警规则,从而建立起从网络到机器、从实例到模块、再到上层业务的立体化监控。立体化的监控虽然极大提高了故障发现的能力,但是很容易导致一个故障触发大量报警,造成报警风暴。

请问针对这种情况,有没有好的解决方案?

收起
参与7

查看其它 1 个回答贺勇的回答

贺勇贺勇产品研发部总经理Canway

应对告警风暴业界已经有比较成熟的方案,参考架构如下:

系统集成 · 2020-01-15
浏览1834

回答者

贺勇
产品研发部总经理Canway
擅长领域: 云计算系统运维服务器

贺勇 最近回答过的问题

回答状态

  • 发布时间:2020-01-15
  • 关注会员:4 人
  • 回答浏览:1834
  • X社区推广