Q:
监控软件设置的报警级别一般怎么分类?
另外如果和即时通信软件进行绑定以后,那么是不是要设置不用警告级别的消息提示时间啊,如果不重要的消息在晚上发生后,报警就一会不停。这个是怎么设定的呢?
[zhangjunpo 中科软 数据库管理员]
A:
[huzhichengforce 数据库管理员]
这个我深受其扰,刚开始新的监控平台搭建起来的时候,希望所有的告警都立刻知晓,实际情况,是天天跟轰炸机一样 搞得人心不宁。
监控不完善,误报。该报的没报 大半夜一堆报警等等
采取办法:
优化告警平台 对告警阈值调整减少报警
对经常性的报警又严重的必须要找到原因 不能拖
剔除无效报警 例如你的数据库会话一高 数据库负载压力比平常肯定大了,那么数据库的服务LOCKs等 在监控平台就不需要去监控了 ,压力上来你直接就找到数据库去排查问题去了。
然后告警级别分类 监控软件都基本上带分类等级 ,会导致业务down的那必须灾难级别啊,磁盘监控等等的 不是有阈值么 设定阈值 还是一定度量的问题 原则是不管如何度量 都要保证我能提前获取服务器警告,不要等到除了问题 才有警告了,那么监控软件的效果只发挥一般。 提前告警的作用没起到
[曹贝 金融行业专家]
最常用的级别设置:严重、警告、一般,可根据故障对业务的影响来进行划分。不同级别的告警,其告警策略也是不同的。
严重:告警监测力度要细,且发生问题后,需要一直告警,除非得到妥善处理。另,可支持告警收件人层次升级,比如:告警5次后,升级到部门经理,再告10次后,还么修复,直接告到部门总监。
警告:告警监测力度适中,且发生问题后,根据一定策略告警。
一般:告警方式可以缓和一些,比如:以邮件为主。
[everychengxuan 系统架构师]
这个还是经验的问题, 需要监控系统制定者对每个监控项都有足够理解, 对监控阈值的取值都有一定研究, 刚开始可以不要添加报警通知, 自己过一遍每个监控项的取值, 剔除不重要的监控项, 调优项目触发阈值, 使之更容易命中问题本身。
以上来自:来自社区活动“"运筹帷幄之中, 决胜千里之外"——系统监控软件常见问题答疑解惑”(点击链接可浏览)
如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!
赞0
添加新评论0 条评论