自动化运维监控指标一般是怎么定义和采集的?有哪些标准和规范吗?
对于自动化运维监控指标的定义,应该以ITIL为基础,而标准和规范的制定也要结合实际需求,可以按照:监控指标梳理-->监控指标阈值设置-->指标评估,这个流程进行。
可采集以下监控指标供参考:
1、系统资源层面可按照OS、DB、Middleware、Storage这几个大类来细分;
OS层面可进行监控的指标有CPU、MEM、磁盘空间、换页、报错日志。
DB层面重点监控实例运行状态、表空间、锁资源、缓冲池命中率、会话数等。
Middleware中业务中间件如WAS、Weblogic重点监控内存资源使用情况、最大连接数、空闲线程数之类,消息中间件监控如队列管理器和通道状态、死信队列、是否有消息堆积等。
Storage监控的指标有I/O性能、光纤交换机、多路径状态等。
2、应用层面的监控指标可细分为服务进程、交易数据、日志、作业调度、批处理、报文等。
3、硬件层面可对服务器、网络设备、存储等设备监控如电源、温度、风扇从不同维度反应设备运行情况和质量。
4、机房环控层面监控指标可以有机房温湿度、UPS电池及主机状态、空调等。