当主机出现IO问题时,存储该如何“自证清白“?

我们存储管理员在日常生产运维中经常会碰到这样的情况,主机端反应IO慢,应用负责人首先向存储管理员发难:“是不是存储有问题?”那么作为存储管理员,该如何下手去分析问题,定位问题呢?
我们都知道主机到存储的IO经过主机板卡、交换机、存储,中间任一环节,甚至包括线路都有可能造成主机端IO慢。而存储端的监控基本是控制器、存储池、端口的整体监控,而且往往看到的性能数据是一个结果而非原因,那么该如何从存储监控的这些数据中提炼出和某个主机相关的能反映或者推测出主机端IO慢的原因的蛛丝马迹,从而确认问题和存储端无关呢?

3回答

guwenkuanguwenkuan  系统架构师 , 金融
chenliinkcsxuEy乃伊组特等赞同了此回答
想要“自证清白”,口说无凭,一定要借助存储性能监控软件或性能数据分析结果。具体的说,就是通过监控软件设置性能相关的事件和报警触发条件: 硬件角度来讲,就是各个部件的利用率阈值,甚至关键部件的健康状态,因为故障也经常是造成性能下降的原因,比如控制器故障或者链路相关部...显示全部

想要“自证清白”,口说无凭,一定要借助存储性能监控软件或性能数据分析结果。具体的说,就是通过监控软件设置性能相关的事件和报警触发条件:

  1. 硬件角度来讲,就是各个部件的利用率阈值,甚至关键部件的健康状态,因为故障也经常是造成性能下降的原因,比如控制器故障或者链路相关部件故障。零部件故障,则存储资源下降,那么下降的程度会不会直接影响性能,则要视情况而定。我们泛泛的把一个存储的资源比做 100% ,如果当前业务只使用到其中的 30% ,那么就算故障设备影响了整体设备的 50% ,也不会对业务有性能方面的影响,而如果当前业务已经使用了 90% ,那轻微的设备故障就极有可能影响性能。

  2. 软件角度来讲,就是 IO 相关的指标监控,比如 IOPS ,响应时间,吞吐量等。如果有任何超标的报警产生,不一定是唯一造成性能问题的原因,但一定与之相关的环节脱离不了干系。当然有报警并不一定是某些设备有问题,也许只是单纯的业务压力已经超出了设备可以提供的处理极限。也就是俗话说的 “ 小马拉大车 ” 。

任何异常报警的产生,都可能是造成性能问题的根本原因。反过来说,没有报警,则是“自证清白”的第一步。如未出现任何报警或异常状态,则进一步通过分析问题时间段的存储性能日志,以及结合端到端的 IO 处理过程中涉及到的所有环节的追踪分析,比如主机、应用、传输链路等环节对应的日志,多方协查来定位造成性能问题的根本原因。

另外,华为存储本身有监控模块,可以对控制器整体性能、单个 LUN 或文件系统的性能、端口性能、后端磁盘性能等进行监控,且有在线工具可以实时查看当前性能、离线工具可以查看历史性能,通过对比主机出现性能问题的时间点,分析、查看存储侧对应时间点的性能表现,也可以来 “ 自证清白 ”

收起
 5天前
潘延晟潘延晟  系统工程师 , 第十区。散人
chenlii乃伊组特jeko等赞同了此回答
这个问题很好。好多环节其实都存在这种问题。,软件,硬件。网络都存在这种互相推诿。需要自证清白的情况。信息化到现在每一个环节结合都很紧密。如果单纯的想要资政清白。其实无非就是从生产环境下断下来。独立运行测试怀疑的性能。但对于现在的信息化系统来说。很多时候这...显示全部

这个问题很好。好多环节其实都存在这种问题。,软件,硬件。网络都存在这种互相推诿。需要自证清白的情况。信息化到现在每一个环节结合都很紧密。
如果单纯的想要资政清白。其实无非就是从生产环境下断下来。独立运行测试怀疑的性能。但对于现在的信息化系统来说。很多时候这种情况无法做到。所以我觉得出现问题的时候首要的一个原则是各个部门先不要主管的判断是对方的问题。这个态度很关键。共同从各自的角度分析。互相配合。才可能更快的分析问题
以主机和存储为例,当主机端反映IO缓慢。可以从及几部分来验证。主机端。进行对主机本地的存储进行读写测试。对比在存储上的IO。判断是否是主机性能本身的问题。存储段。可以对比与其他主机之间的IO读写看看是否是单节点主机的问题。有条件的话可以跨过SAN交换机。单独接入新主机。来排除线路与san网络之间的问题。
互相配合。逐级替换,测试应该可以更有助于找到问题的根本。

收起
 2021-01-13
浏览233
xukangxukang  售前技术支持 , mugao
jekozhuhaiqiang赞同了此回答
不少存储都有性能监控,拉出性能监控包括控制器 卷 磁盘 自证无问题。san交换机上检查链路质量 看看有没有crc,fcping 存储 主机hba口查看延时。当然这是要在延时高这个问题持续发生的情况下才能分析出问题在哪里。...显示全部

不少存储都有性能监控,拉出性能监控包括控制器 卷 磁盘 自证无问题。san交换机上检查链路质量 看看有没有crc,fcping 存储 主机hba口查看延时。当然这是要在延时高这个问题持续发生的情况下才能分析出问题在哪里。

收起
 2021-01-13
浏览195

提问者

jeko存储工程师, 某省农信

核心存储选型优先顺序调查

发表您的选型观点,参与即得50金币。

问题状态

  • 发布时间:2021-01-13
  • 关注会员:4 人
  • 问题浏览:2042
  • 最近回答:5天前