我们存储管理员在日常生产运维中经常会碰到这样的情况,主机端反应IO慢,应用负责人首先向存储管理员发难:“是不是存储有问题?”那么作为存储管理员,该如何下手去分析问题,定位问题呢?
我们都知道主机到存储的IO经过主机板卡、交换机、存储,中间任一环节,甚至包括线路都有可能造成主机端IO慢。而存储端的监控基本是控制器、存储池、端口的整体监控,而且往往看到的性能数据是一个结果而非原因,那么该如何从存储监控的这些数据中提炼出和某个主机相关的能反映或者推测出主机端IO慢的原因的蛛丝马迹,从而确认问题和存储端无关呢?
想要“自证清白”,口说无凭,一定要借助存储性能监控软件或性能数据分析结果。具体的说,就是通过监控软件设置性能相关的事件和报警触发条件:
任何异常报警的产生,都可能是造成性能问题的根本原因。反过来说,没有报警,则是“自证清白”的第一步。如未出现任何报警或异常状态,则进一步通过分析问题时间段的存储性能日志,以及结合端到端的 IO 处理过程中涉及到的所有环节的追踪分析,比如主机、应用、传输链路等环节对应的日志,多方协查来定位造成性能问题的根本原因。
另外,华为存储本身有监控模块,可以对控制器整体性能、单个 LUN 或文件系统的性能、端口性能、后端磁盘性能等进行监控,且有在线工具可以实时查看当前性能、离线工具可以查看历史性能,通过对比主机出现性能问题的时间点,分析、查看存储侧对应时间点的性能表现,也可以来 “ 自证清白 ”
收起