互联网服务监控Prometheus

prometheus设置告警策略,如何进行分类管理?

我们使用prometheus来实现基础设施层的监控。在对监控对象设置告警策略时,例如CPU平均负载,将所有监控对象的CPU阈值设置为大于CPU核心数量时触发告警。这样就面临一个问题,计算密集型的业务会时时刻刻告警。后来,我们尝试将CPU负载告警策略,分为三种类型(灵敏型,标准型,迟钝型)用不同的阈值来表示,粗略的将应用分为三类以适应不同的应用类型,这种方式也只能将告警策略分为三类,如果我们的应用对CPU的使用有几十种类型呢?要对CPU这一个指标设置十几个告警策略吗?如果每个监控指标都这样划分,那么怎么来管理呢?在zabbix和open-falcon中告警策略有父子关系,可以针对某个应用设置单独策略,自动解决继承关系,但prometheus的rule似乎没这种能力。
    各位是怎么解决的呢?

参与5

1同行回答

hufeng719hufeng719联盟成员系统工程师某钢铁企业
楼主能否共享下您的 prometheus 安装部署文档?跪求 我们也计划部署监控系统  但是自己不会搞显示全部

楼主能否共享下您的 prometheus 安装部署文档?跪求 我们也计划部署监控系统  但是自己不会搞

收起
能源采矿 · 2021-09-09
浏览1350
  • Prometheus完整的部署方案+实战实例https://www.talkwithtrend.com/Document/detail/tid/443117
    2021-09-09

提问者

路人丁
SREAAAA
擅长领域: 监控系统运维一体化监控

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2021-09-08
  • 关注会员:3 人
  • 问题浏览:2081
  • 最近回答:2021-09-09
  • X社区推广