我们目前正在做私有云平台自动化监控工具的选型工作,初步选定了 Zabbix 和 Nagios 在进行 PoC。在做验证的时候发现从监控的功能角度上来说,两款都能够满足我们的初步需求,只是在安装和配置的时候有所区别。所以想和专家请教一下,从 PoC 角度出发进行监控平台选择的时候,需要从哪些点上去进行分析比较,有哪些判断的指标或者标准?
另外,就是是否还有其它的监控平台能够推荐推荐的?
谢谢。
具体对比可以从以下几个方面对比分析:
1 监控功能(系统层面、网络层面、存储层面、数据层面)。
2 自动化程度(发现、注册、配置)。
3 自定义功能的灵活性及便捷性(按照需求定义规则实现复杂监控)。
4 是否支持多种协议或者监控方式(agentd、snmp、ipmi、jmx)。
5 图形报表的友好性(功能点、展示质量、可配置灵活性)。
6 扩展性(系统部署的扩展性)。
7 性能(达到一定规模之后,监控数据获得的及时性及准确性)。
8 统计及审计功能(对所监控对象具备多维度审计评估报表或者报告功能)。
9 运维复杂度。
10 再编程接口。
究竟选择什么样的工具,还得看具体自己的需求偏重哪方面。综合评价两个工具。Nagios属于轻量级便捷工具,复杂功能实现需要很多插件配合。而Zabbix属于比较全面的监控工具,很多功能自己已经集成了。Nagios管理简单易用,对运维人员要求不是太高。但是Zabbix对运维人员的要求就比较高了。Nagios的展示层相对简陋一些,而Zabbix相对较好。
Zabbix 和 Nagios 各有各得缺点各有各的优点,在私有云方面zabbix对物理监控和对虚拟机监控都容易实现,还可以跨不同的数据中心不同的私有云。
以及对虚拟机上面的数据库,中间件,及私有云网络,存储,服务器硬件都很容易胜任。 还能自动发现自动关联模板功能这点在实施上面减少很多的工作量。
之前对Nagios有过实践,想说说我对Nagios的看法。
和楼主一样也是对私有云的自动化监控,不过主机相对很少,大约在20台以内。
当时在监控工具选型的时候,就考虑到不仅只是对主机物理性能参数的监控,还必须包括对Openstack相关服务,数据库以及其他服务的监控。因此很看重Nagios的方便扩展能力,所有的监测功能都是以插件的形式在被监测机器上运行完成。对于所需要的监控服务,可以通过开发不同的插件来完成,插件支持多种语言,包括常用的Python,Perl等(而且开源的插件很多,可以参考)。
但是Nagios的图表展示能力有限,比如历史数据,服务状态趋势无法展示,需要借助其他工具丰富图表展示,比如Nagiosgraph,Cacti。尽管如此,但是图表的展示还是差强人意。