一般来说Hadoop集群的运维,分为几个部分,第一个部分是硬件级别的运维,尤其以集群的节点硬盘内存为主,这些方向上开源监控软件都能满足。这部分我就不过多描述了。
第二部分,是Hadoop的存储层监控,要监控到Hadoop的每个节点数据存储资源,也要监控到集群HDFS每个目录的增长。
收起Nagios是一款遵循GPLv2的开源网络监控软件,可用来监控指定的多种系统的主机、服务,并可在它们的工作状态发生变化时通知管理员。它的特性包括:
1)监控网络服务(HTTP、POP3、SMTP、PING、MySQL等)
2)监控主机资源(磁盘空间利用率、内存利用率、CPU负载等)
3)简洁的插件设计接口,使得用户可以轻松开发所需的检测脚本
4)并行服务模式
5)轻松描述网络结构,并且能够区辨“宕机”和“主机不可达”
6)通过邮件或用户自定义的方式将主机或服务的工作状态变化情况通知给管理员
7)自动日志滚动
8)支持以冗余方式进行主机监控
9)可以通过web方式直观的查看当前网络状态、通知和问题历史、日志文件等等,此组件为可
收起