监控系统产生的告警信息最好应该是准确无误的
但日常中遇到过zabbix的误报警
譬如某个主机 unreadable ,但实际没有问题
分享一个我遇到过的zabbix取windows数据不及时的问题,后来查证是tcp socket连接有好多是time wait的,而出现很多time wait的原因是windows的一个bug,当开机超过400多天后会出现
不知道大家有没有遇到过其他的问题,有什么方式可以解决或者提供思路?谢谢
首先强调一点, 如果整个架构设计合理, Zabbix以及数据库优化合理, 网络环境无异常, 是不存在误报的, 所谓的误报, 只是出现问题所展现的"表象"而已;
其次, Zabbix默认的的Template不可能适用于所有的数据中心, 按需要修改模块的取值内容, 取值间隔, 触发条件;
最后, 回到您所说的某个主机Unreadable, 为什么会出现Unreadble呢, 无非是主机多次取值失败, 那么为什么会取值失败呢? 有没有关注过Zabbix的队列, 是不是Zabbix agent有大量的队列, 有没有关注Zabbix Poller的busy情况, 是不是Poller长时间处于繁忙状态, 有没有尝试手动get主机的item, 会不会超时等等.
收起