这个工具比较多,介绍一两种吧。首先说商业的。VMware的vCenter Operations Manager让管理员们得以深入了解各自的虚拟化基础设施。Operations Manager可以不断监控每一个对象:从虚拟机、主机到存储系统,并且收集性能和可用性方面的一大堆度量指标。根据这些数据,它随后为每个虚拟机、主机和集群估算出正常的操作级别,并确定哪里可能存在着问题。
另外开源的Ganglia是一款为HPC(高性能计算)集群而设计的可扩展的分布式监控系统,它可以监视和显示集群中的节点的各种状态信息。
它由运行在各个节点上的gmond守护进程来采集cpu、mem、硬盘利用率、I/O负载、网络流量情况等方面的数据,然后汇总到gmetad守护进程下,使用rrdtools存储数据,最后将历史数据以曲线方式通过php页面呈现。
另外监控是持续的,需要结合业务的变化不断调整。
收起