互联网服务监控Prometheus

prometheus设置告警策略,如何进行分类管理?

我们使用prometheus来实现基础设施层的监控。在对监控对象设置告警策略时,例如CPU平均负载,将所有监控对象的CPU阈值设置为大于CPU核心数量时触发告警。这样就面临一个问题,计算密集型的业务会时时刻刻告警。后来,我们尝试将CPU负载告警策略,分为三种类型(灵敏型,标准型,迟钝型)...显示全部

我们使用prometheus来实现基础设施层的监控。在对监控对象设置告警策略时,例如CPU平均负载,将所有监控对象的CPU阈值设置为大于CPU核心数量时触发告警。这样就面临一个问题,计算密集型的业务会时时刻刻告警。后来,我们尝试将CPU负载告警策略,分为三种类型(灵敏型,标准型,迟钝型)用不同的阈值来表示,粗略的将应用分为三类以适应不同的应用类型,这种方式也只能将告警策略分为三类,如果我们的应用对CPU的使用有几十种类型呢?要对CPU这一个指标设置十几个告警策略吗?如果每个监控指标都这样划分,那么怎么来管理呢?在zabbix和open-falcon中告警策略有父子关系,可以针对某个应用设置单独策略,自动解决继承关系,但prometheus的rule似乎没这种能力。
    各位是怎么解决的呢?

收起
参与5

返回hufeng719的回答

hufeng719hufeng719联盟成员系统工程师某钢铁企业

楼主能否共享下您的 prometheus 安装部署文档?跪求 我们也计划部署监控系统  但是自己不会搞

能源采矿 · 2021-09-09
浏览1356
  • Prometheus完整的部署方案+实战实例https://www.talkwithtrend.com/Document/detail/tid/443117
    2021-09-09

回答者

hufeng719
系统工程师某钢铁企业
擅长领域: 数据库存储服务器

hufeng719 最近回答过的问题

回答状态

  • 发布时间:2021-09-09
  • 关注会员:3 人
  • 回答浏览:1356
  • X社区推广