SAN 环境的主机,存储 ,链路等故障快速定位手段与技巧?

SAN环境下经常出现的问题有链路切换,不在最优路径,hba卡故障,配线架无光传输,sfp模块灯不亮,san telnet 不能登录,链路性能下降等等,这些都是工作当中常见问题,如何快速定位问题,又有那些经验可以借鉴,你曾经遇到过那些问题,欢迎交流探讨。...显示全部

SAN环境下经常出现的问题有链路切换,不在最优路径,hba卡故障,配线架无光传输,sfp模块灯不亮,san telnet 不能登录,链路性能下降等等,这些都是工作当中常见问题,如何快速定位问题,又有那些经验可以借鉴,你曾经遇到过那些问题,欢迎交流探讨。

收起
参与25

查看其它 2 个回答Acdante的回答

AcdanteAcdante  技术总监 , SHFY

分享一篇自己收藏的文章:

http://blog.chinaunix.net/uid-8546015-id-2020491.html

SAN网络故障排除

一、 SAN网络故障排除的两个应用技巧:

1、交换机的LED:

我们在讨论SAN故障排除之前先看一下故障诊断工具。其中最重要的是交换机的LED显示屏。

一个典型的SAN存储网络构架,其中包括Fbric线缆、主机、工作站、服务器、交换机、RAID阵列等设备。交换机是处于主机和存储设备之间的网络中间位置,既能看到存储设备,也能看到主机。得益于对存储网络两端的可见性,你可以使用交换机确定SAN中所有故障的原因。通过查看交换机的LCD就能收集到大量的信息。可以通过查找“快闪黄灯”,确定设备发生了故障,或是它仍未处于联机状态。如果交换机置于异地,可以使用Web 工具直观地、实时地了解LED的状态。快速闪烁的绿灯是SAN正常运行的信号。 通过实际观察组成SAN的交换机,可以检测模式,并确定处于边缘状态或是有故障的组件。例如,如果你处于需要确定在联机和脱机两种状态间重复切换的设备的情况,此时就可以使用交换机的LED。

在观察运行的Fabric线缆时正常情况是:该端口由处于脱机状态(没有LED灯),然后发光(保持为黄色),然后进如联机状态(保持为绿色),然后循环进行同样的步骤--无色、黄、绿。黄灯或是闪烁的黄灯表明SAN中存在问题。由黄灯转绿灯的LED则不是问题,因为边缘设备断电,或是未处于联机状态,都可能导致交换机的LED黄灯闪烁。如果交换机电源的LED开始慢速闪烁,则表明交换机的加电自检(POST)过程存在故障,无法实现联机。

表一:交换机各端口LED和定义).

端口 LED定义
黄色 接收到灯或是信号的载波,但是尚未联机
缓慢变黄 禁用(诊断、switchDisable命令的结果)
快速变黄 端口故障
绿色 联机(通过线缆与外部设备相连)
缓慢变绿 联机,但是已分段(Fabrlc参数不兼容)
快速变绿 正在进行内部环回
绿灯闪烁 正常联机,有帧流量通过端口

2、将SAN视为虚拟线缆:

当对SAN进行故障诊断时,可以通过将其分解为主机、SAN虚拟线缆及存储设备来解决问题,这时将SAN视为一条虚拟线缆。对于操作系统来说,SAN一条通往磁盘的链路,这正是传统的SCSI连接所实现的目的。

在刚开始进行故障诊断时,请将SAN视为一条虚拟线缆。传统的存储方式就是通过一条
SCSI线缆将小型计算机系统接口(SCSI)磁盘连接到主机;在这种情况下,你会关注4个组件:存储设备、主机总线适配器(HBA)、主机的操作系统以及Fbric线缆。SAN故障诊断与传统的存储故障诊断过程相有许多异同之处。对于操作系统来说,SAN提供了一条通往磁盘的链路,这正是传统的SCSI连接所实现的目的。 在诊断直连SCSI设备的故障或是以太网故障时,采用的是排除法;可以将这一方法用于对SAN进行故障诊断。从宏观层面讲,如果将SAN作为一条虚拟线缆来考虑,问题有可能出在三个地方:主机、“Fbric线缆”或是存储设备。采用类似于对分查找的放障诊断方式开始对这些领域进行研究。从中间部分着手,确定是处于问题的“上方”还是“下方”,然后继续对可疑路径进行对分,直到解决问题为止。

二、SAN网络故障排除:

1、 Fabric线缆故障

Fabric线缆故障经常会严重地影响多个设备。由于SAN对边缘情况的冗余补偿,Fabric线缆故障在一个冗余的SAN上发生时,可能不会影响SAN的功能。但是这些“软”故障能够引起企业应用性能的降低,因此也应立即引起注意。大型Fabric线缆指包含10个或更多交换机及上百边缘设备的Fabric线缆,它们更易于发生Fabric线缆故障。

Fabric线缆故障排除方法:

(1)Fabric线缆故障影响众多设备。分段等逻辑性交换机中断或物理性交换机中断,能够引起许多设备脱离Fabric线缆。ISL初始化故障也是需要考虑的问题。

(2)缩小Fabric线缆故障诊断范围的最佳途径,是对比基准SAN配置文件和当前SAN配置文件,并研究其差异。

(3)SAN配置文件的内容包括每个交换机上设备的数量、Fabric线缆中设备的数量、Fabric线缆中交换机的数量等。errShow命令和switchShow命令对于追踪Fabric线缆故障也非常有用。

(4)一些Fabric线缆故障由Fabric线缆服务超时变量和边缘设备超时设置的不匹配引起。必须仔细分析Fabric线缆和边缘设备来解决这种复杂问题。

(5)SAN网络设备中使用最多的是Faricb线缆。由于线缆通过墙角和门缝处,有可能被压坏。所以,需要注意线缆是否截断、线缆过度扭曲变形等。

互联网服务 · 2017-12-25
浏览5672

回答者

Acdante
Acdante111745
技术总监SHFY
擅长领域: 存储服务器数据库

Acdante 最近回答过的问题

回答状态

  • 发布时间:2017-12-25
  • 关注会员:4 人
  • 回答浏览:5672
  • X社区推广