twt运营
作者twt运营联盟成员·2016-09-21 10:19
软件开发工程师·twt

Q&A|监控软件设置的报警级别一般怎么分类?

字数 890阅读 2444评论 0赞 0

Q:

监控软件设置的报警级别一般怎么分类?

另外如果和即时通信软件进行绑定以后,那么是不是要设置不用警告级别的消息提示时间啊,如果不重要的消息在晚上发生后,报警就一会不停。这个是怎么设定的呢?

[zhangjunpo 中科软 数据库管理员]

A:

[huzhichengforce 数据库管理员]

这个我深受其扰,刚开始新的监控平台搭建起来的时候,希望所有的告警都立刻知晓,实际情况,是天天跟轰炸机一样 搞得人心不宁。

监控不完善,误报。该报的没报 大半夜一堆报警等等

采取办法:

  • 优化告警平台 对告警阈值调整减少报警

  • 对经常性的报警又严重的必须要找到原因 不能拖

  • 剔除无效报警 例如你的数据库会话一高 数据库负载压力比平常肯定大了,那么数据库的服务LOCKs等 在监控平台就不需要去监控了 ,压力上来你直接就找到数据库去排查问题去了。

然后告警级别分类 监控软件都基本上带分类等级 ,会导致业务down的那必须灾难级别啊,磁盘监控等等的 不是有阈值么 设定阈值 还是一定度量的问题 原则是不管如何度量 都要保证我能提前获取服务器警告,不要等到除了问题 才有警告了,那么监控软件的效果只发挥一般。 提前告警的作用没起到

[曹贝 金融行业专家]

最常用的级别设置:严重、警告、一般,可根据故障对业务的影响来进行划分。不同级别的告警,其告警策略也是不同的。

严重:告警监测力度要细,且发生问题后,需要一直告警,除非得到妥善处理。另,可支持告警收件人层次升级,比如:告警5次后,升级到部门经理,再告10次后,还么修复,直接告到部门总监。

警告:告警监测力度适中,且发生问题后,根据一定策略告警。

一般:告警方式可以缓和一些,比如:以邮件为主。

[everychengxuan 系统架构师]

这个还是经验的问题, 需要监控系统制定者对每个监控项都有足够理解, 对监控阈值的取值都有一定研究, 刚开始可以不要添加报警通知, 自己过一遍每个监控项的取值, 剔除不重要的监控项, 调优项目触发阈值, 使之更容易命中问题本身。

以上来自:来自社区活动“"运筹帷幄之中, 决胜千里之外"——系统监控软件常见问题答疑解惑”(点击链接可浏览)

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

0

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关问题

X社区推广