自动化运维监控指标一般是怎么定义和采集的?有哪些标准和规范吗?

自动化运维监控指标一般是怎么定义和采集的?有哪些标准和规范吗?显示全部

自动化运维监控指标一般是怎么定义和采集的?有哪些标准和规范吗?

收起
参与6

查看其它 1 个回答qq373793057的回答

qq373793057qq373793057  系统工程师 , 某银行

对于自动化运维监控指标的定义,应该以ITIL为基础,而标准和规范的制定也要结合实际需求,可以按照:监控指标梳理-->监控指标阈值设置-->指标评估,这个流程进行。

可采集以下监控指标供参考:

1、系统资源层面可按照OS、DB、Middleware、Storage这几个大类来细分;

OS层面可进行监控的指标有CPU、MEM、磁盘空间、换页、报错日志。

DB层面重点监控实例运行状态、表空间、锁资源、缓冲池命中率、会话数等。

Middleware中业务中间件如WAS、Weblogic重点监控内存资源使用情况、最大连接数、空闲线程数之类,消息中间件监控如队列管理器和通道状态、死信队列、是否有消息堆积等。

Storage监控的指标有I/O性能、光纤交换机、多路径状态等。

2、应用层面的监控指标可细分为服务进程、交易数据、日志、作业调度、批处理、报文等。

3、硬件层面可对服务器、网络设备、存储等设备监控如电源、温度、风扇从不同维度反应设备运行情况和质量。

4、机房环控层面监控指标可以有机房温湿度、UPS电池及主机状态、空调等。

银行 · 2017-04-26
浏览6309

回答者

qq373793057
系统工程师某银行
擅长领域: 存储灾备分布式系统

qq373793057 最近回答过的问题

回答状态

  • 发布时间:2017-04-26
  • 关注会员:4 人
  • 回答浏览:6309
  • X社区推广