大家遇到过Zabbix的误报警有哪些?怎样解决这些误报警

监控系统产生的告警信息最好应该是准确无误的
但日常中遇到过zabbix的误报警
譬如某个主机 unreadable ,但实际没有问题

分享一个我遇到过的zabbix取windows数据不及时的问题,后来查证是tcp socket连接有好多是time wait的,而出现很多time wait的原因是windows的一个bug,当开机超过400多天后会出现

不知道大家有没有遇到过其他的问题,有什么方式可以解决或者提供思路?谢谢

参与14

3同行回答

everychengxuaneverychengxuan  系统工程师 , 某某公司
首先强调一点, 如果整个架构设计合理, Zabbix以及数据库优化合理, 网络环境无异常, 是不存在误报的, 所谓的误报, 只是出现问题所展现的"表象"而已; 其次, Zabbix默认的的Template不可能适用于所有的数据中心, 按需要修改模块的取值内容, 取值间隔, 触发条件; 最后, 回到...显示全部

首先强调一点, 如果整个架构设计合理, Zabbix以及数据库优化合理, 网络环境无异常, 是不存在误报的, 所谓的误报, 只是出现问题所展现的"表象"而已;

其次, Zabbix默认的的Template不可能适用于所有的数据中心, 按需要修改模块的取值内容, 取值间隔, 触发条件;

最后, 回到您所说的某个主机Unreadable, 为什么会出现Unreadble呢, 无非是主机多次取值失败, 那么为什么会取值失败呢? 有没有关注过Zabbix的队列, 是不是Zabbix agent有大量的队列, 有没有关注Zabbix Poller的busy情况, 是不是Poller长时间处于繁忙状态, 有没有尝试手动get主机的item, 会不会超时等等.

收起
互联网服务 · 2017-05-31
浏览9795
匿名用户匿名用户
大都是网络延迟造成的。修改修改检测频率就好了显示全部

大都是网络延迟造成的。修改修改检测频率就好了

收起
银行 · 2020-04-13
浏览2947
bluetom520bluetom520  系统工程师 , 某某公司
承轩兄弟说的对,看日志看日志看日志,再就是看队列。误报警大部分是网络抖动造成的,这就要看你的实际采集间隔和触发器设计规则。显示全部

承轩兄弟说的对,看日志看日志看日志,再就是看队列。误报警大部分是网络抖动造成的,这就要看你的实际采集间隔和触发器设计规则。

收起
政府其它 · 2017-06-02
浏览6989

提问者

TonyWang
系统工程师BY
擅长领域: 存储服务器数据库

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2017-05-31
  • 关注会员:5 人
  • 问题浏览:12917
  • 最近回答:2020-04-13
  • X社区推广