存储监控可以分为两个方面:
1、存储运行状态监控。这样一般可以通过抓取存储日志来设置监控,比方说message忽略warning设置低等级告警,error设置为高等级告警。可以通过SNMP直接送出去日志
2、存储性能监控。有如下两种方式
a)从厂商的性能管理软件中直接获取,在性能管理软件中设置告警,如邮件等。如果需要到运维平台展示,可以从邮件中获取关键字来保证告警可读性。
b) 从厂商的性能管理软件中直接获取,通过性能管理软件的API、或者直接读性能数据的数据库来获取想要的性能数据,再统一展示到运维平台。
关于性能监控,比较粗粒度的有存储整体响应时间、较细一些的有控制器响应时间、最细粒度的是LUN级别的;但日常运维场景中最需要的是某个应用的性能情况,这就需要在存储规划时提前想好该如何给LUN命名、主机组命名等,最好是在LUN、主机组命名时打上应用的关键字标签,以便能快速从基础数据中获取某个应用的数据。
最好的性能监控是没有必要监控,为什么这么说呢?当存储出现性能问题时,多半是在前期购买时没考虑透彻。存储设备正常从投产到下线,基本不会停机或重启等,在购买存储时需充分规划好生命周期内的容量、可支撑的最大性能等,最好留一些余量。因为一旦存储性能瓶颈,即使找到根因也没办法及时调整来规避,最好办法就是将重负载应用迁出。所有个人认为重在前期规划。