各位专家:
监控软件设置的报警级别一般怎么分类啊?
另外如果和即时通信软件进行绑定以后,那么是不是要设置不用警告级别的消息提示时间啊,如果不重要的消息在晚上发生后,报警就一会不停。这个是怎么设定的呢?
谢谢!
最常用的级别设置:严重、警告、一般,可根据故障对业务的影响来进行划分。不同级别的告警,其告警策略也是不同的。
严重:告警监测力度要细,且发生问题后,需要一直告警,除非得到妥善处理。另,可支持告警收件人层次升级,比如:告警5次后,升级到部门经理,再告10次后,还么修复,直接告到部门总监。
警告:告警监测力度适中,且发生问题后,根据一定策略告警。
一般:告警方式可以缓和一些,比如:以邮件为主。
收起这个我深受其扰,刚开始新的监控平台搭建起来的时候,希望所有的告警都立刻知晓,实际情况,是天天跟轰炸机一样 搞得人心不宁。
监控不完善,误报。该报的没报 大半夜一堆报警等等
采取办法:优化告警平台 对告警阈值调整减少报警
:对经常性的报警又严重的必须要找到原因 不能拖
:剔除无效报警 例如你的数据库会话一高 数据库负载压力比平常肯定大了,那么数据库的服务LOCKs等 在监控平台就不需要去监控了 ,压力上来你直接就找到数据库去排查问题去了。
然后告警级别分类 监控软件都基本上带分类等级 ,会导致业务down的那必须灾难级别啊,磁盘监控等等的 不是有阈值么 设定阈值 还是一定度量的问题 原则是不管如何度量 都要保证我能提前获取服务器警告,不要等到除了问题 才有警告了,那么监控软件的效果只发挥一般。 提前告警的作用没起到
收起