规划呢,主要是选择成熟稳定的方案,同业的成熟案例。
监控手段还是比较多,核心存储都提供了snmp等接口,可以直接吐告警信息到监控平台,界面人工巡检也很友好。
自动化呢,核心存储也基本都提供了ansible的剧本包,可以直接使用,第三方社区也有不少提供。
二线运维 使用设备原厂的监控工具
一线运维 使用综合监控工具,可以把主机、数据库、存储等统一监控。把数据库表空间在主机层面、存储层面的对应关系 横向打通,例如当存储磁盘故障 可以快速判定影响那个表空间,或需要对表空间扩容 可以知道存储上还有多少空余空间可用。。。
存储不怕硬件故障,就怕性能故障。用在核心交易系统的存储一般都是高端存储,本身的稳定性和性能就不差,但只盯着存储是不够的,对于OLTP业务,一般采用高性能的SAN网络,为了数据安全还有同城和异地的灾备,甚至构建在同城双活存储架构上,这就要从系统的角度做监控了,单个厂商的控制台只能看到局部。这样做的重点在于:
1)有能力自动构建端到端拓扑模型,从应用到本地盘,有必要的话还要延伸到同城和异地的保护盘,在同步复制或双活模式下,复制链路的异常也会对业务系统带来很大延迟。
2)有能力对关键位置的关键指标做7x24x365级别的自动的数据采集,针对特定的场景,例如多路径负载、级联链路峰值、端口抖动光衰、盘阵前端拥塞、RAID或池热点、慢速盘等设定阈值,做门限的实时监控。
做到上述几点,我认为对于您说的问题就能很好的解决了。要是您的核心生产服务器用iSCSI直连存储,那结构就简单多了,盯着存储控制台看就够了。