互联网服务io异常故障案例

谁动了我的光纤

环境:光纤连接是全冗余链路,多路径软件SDD,操作系统aix5.          前端小型机PowerHA集群+光纤交换机+DS8000存储          每个小型机上面两个光纤卡,分别连接到不懂的交换机,链路冗余描述:    ...显示全部

环境:光纤连接是全冗余链路,多路径软件SDD,操作系统aix5.

          前端小型机PowerHA集群+光纤交换机+DS8000存储

          每个小型机上面两个光纤卡,分别连接到不懂的交换机,链路冗余

描述:

      曾经那么一天下午,机房作业,在光纤交换机配线架为其他服务器跳证光纤线,正常操作中,看是一切那么的风平浪静。10分钟后,突然接到电话说,快看看我们的应用系统数据库其中有一台机器io巨慢,啥情况?果断停工,了解问题现象,梳理情况,马上开始诊断,整个集群只有这么1台有问题,应该不是啥共性所在,登录系统使用工具参考,简单测试io贼慢。哪里出了问题,好像啥也没操作,怎么突然幺蛾子了。

      查看负载,链路,光纤卡,光纤交换机,存储看是一切正常。为啥巨慢呢?

      秉着凡是都有因果的理念去考虑,一定是哪里出了那个问题。咨询梳理到底什么原因导致这种问题。这一段时间这个集群可以说啥都没操作过,唯一做的就是今天跳线了,不能吧,我确认我没有碰到其他口的。

      还是去看一下,看是没啥问题,梳理了一下zone的配置和存储的端口,对,今天跳线的时候距离最近的端口就是存储端hba卡连接线,其中的一个端口就是连接的问题主机,确实没有啥好的办法,因为都是冗余链路,怀着尝试的心情试试插拔一下这个端口,否则应用也受不了啊。重新插拔后,同时观察io链路

和负载,简单测试io。啥情况:io恢复了。

       我的神啊,谁动了我的光纤啊,问题虽然解决了,但是一直不知道原因所在。。。。。。留下一个悬疑。

           问题:是啥情况才会导致这种问题出现呢?

          

收起
参与42

查看其它 8 个回答skilljiang的回答

skilljiangskilljiang  存储架构师 , COSCON

看看交换机上连该光纤的端口,是否有大量的CRC报错?无意的触碰会导致链路传输不稳定,影响IO传输效率。

轨道交通 · 2016-11-28
浏览2064

回答者

skilljiang
存储架构师COSCON
擅长领域: 存储灾备两地三中心

skilljiang 最近回答过的问题

回答状态

  • 发布时间:2016-11-28
  • 关注会员:11 人
  • 回答浏览:2064
  • X社区推广