feizi111
作者feizi111·2012-08-11 16:17
系统工程师·深圳市科维思信息技术有限公司

存储局域网(SAN)中排错数据收集指南

字数 15607阅读 6104评论 0赞 0

  在解决SAN有关的问题时应该收集的基本信息。如果能够及时收集到这些信息,对加速问题的解决会大有帮助。我们最好不要假设问题出在最明显得地方而不全面收集数据。通过全面收集SAN相关的数据,我们将会大大增加获得快速解决问题的机会。另一个妨碍问题快速解决的原因是数据的收集是在问题发生后的数小时甚至几天后,这种情况下,往往导致原始问题的原因已不复存在了。及时和全面收集数据将会帮助问题的快速解决。下面介绍了收集主机(服务器)、存储设备、交换机等有关信息的步骤。大家都知道收集日志信息的重要性,但是有时一些主机的时间没有被正确设置,所以我们需要知道主机时间和正确时间的差异。另外一个SAN的物理连接示意拓扑图也是非常重要的信息来源,它必须是更新的,包含了SAN中所有的主机,交换机,存储设备,它会大大减少从所有的日志中重构整个构架图的时间。

IBM 主机数据收集

1、AIX
1>时间差
   用date命令来显示系统日期和时间。
2>日志收集

   收集errpterrpt -a(输出到两个独立文件中)
3>收集硬件配置
   收集
snap 信息,IBM TotalStorage DS 产品问题收集信息的命令是

snap –gfiLc

其中:

g - 收集lslpp -hBc 命令的输出,即收集操作系统的环境
f - 收集文件系统信息
i - 收集安装调试VPD信息
L -
收集LVM 信息
c – 产生一个压缩的pax 文件(snap.pax.Z)

2、多路径(Multi-pathing)数据收集
   1>SDD (AIX的各种版本)用以下命令来收集输出(这些数据不包含在snap),最好是在发生错误时收集这些命令的输出

datapath query adapter
datapath query device
lsvpcfg

   2>MPIO (AIX 5.2及以上版本可用)用以下命令来收集输出(这些数据不包含在snap):

pcmpath query adapter
pcmpath query device
pcmpath query essmap

                                                              HP主机数据收集
3、HP-UX
 1>时间差
    用date命令来显示系统日期和时间。
 2>日志收集

    收集/var/adm/syslog/syslog.log 文件
 3>收集硬件配置
    对每个在SAN中的服务器提供以下的详细信息
:

     制造商机器类型和型号(Type/Model)特性详细情况:如CPU特性, 内存数量等

 HBA 详情:

 制造商,品牌、型号 /BIOS (firmware) 版本 如果是QLogic ,还需要BIOS 设置情况 /Driver 版本

 4>软件配置收集
    收集 uname -a 的输出信息
 5>多路径(Multi-pathing)数据收集
  SDD用以下命令来收集输出,最好是在发生错误时收集这些命令的输出

datapath query adapter
datapath query device

                                                                    linux系统数据收集
4、Linux

 1>时间差
   用date命令来显示系统日期和时间。
 2>日志收集

   收集/var/log/messages 文件

   收集dmesg 命令的输出
 3>硬件配置收集
    对于 IBM xSeries 服务器, 最好的收集配置数据的方法是使用e-gatherer 工具。 同时提供HBA 卡的详情。可以从以下网站下载e-gatherer : http://www-306.ibm.com/pc/support/site.wss/MIGR-4R5VKC.html


 4>软件配置收集
    收集 uname -a 的输出信息
注:如果是用Redhat, 安装并运行 sysreport 并收集它的输出.

 5>多路径(Multi-pathing)数据收集
      SDD用以下命令来收集输出,最好是在发生错误时收集这些命令的输出

datapath query adapter
datapath query device

                  Microsoft Windows系统数据收集
5、Windows
时间差
在命令行窗口中用datetime命令来显示系统日期和时间。

收集日志
请在发生事件后立刻保存
system logs application logs. (不要输出成EVT 格式
保存系统日志:鼠标右键单击“我的电脑”->“管理”:

选择:
系统工具 —> 时间查看器 —> 系统日志
然后:
点击操作 —> 另存日志文件,并将类型改为CSV
重复以上步骤,收集应用程序日志.


硬件配置收集
对于 IBM xSeries 服务器, 最好的收集配置数据的方法是使用e-gatherer 工具。 同时提供HBA 卡的详情。可以从以下网站下载e-gatherer :

http://www-306.ibm.com/pc/support/site.wss/MIGR-4R5VKC.html

 


软件配置收集
如果不能提供
e-gatherer 数据请提供:

  • 操作系统
  • 补丁包Service Pack版本


多路径(Multi-pathing)数据收集
SDD
用以下命令来收集输出,最好是在发生错误时收集这些命令的输出

datapath query adapter
datapath query device


Novell Netware

时间差
显示系统日期和时间并记录。


日志收集
CONLOG.EXE 程序可以把所有系统控制台的信息写入一个.LOG 文件。
可以参考以下网站查看详细信息:

http://www.novell.com/documentation/lg/nw42/index.html?utlrfenu/data/hq1lykxx.html

 

软件配置收集:

  • 操作系统版本
  • 表明这是否是一个集群系统


多路径(Multi-pathing)数据收集
SDD
用以下命令来收集输出,最好是在发生错误时收集这些命令的输出

datapath query adapter
datapath query device

 


SUN Solaris

时间差
date命令来显示系统日期和时间。

日志收集

收集/var/adm/messages文件。几天前的记录会存在/var/adm/messagesx中,其中的x是过去几天的天数

收集硬件配置
对每个在SAN中的服务器提供以下的详细信息
:

  • 制造商
  • 机器类型和型号(Type/Model)
  • 特性详细情况:如CPU特性, 内存数量等


软件配置收集:

  • 操作系统的详细信息
  • sd.conf 文件
  • iostat –El的输出


根据HBA卡的情况收集/kernel/drv/*.conf 文件,其中 * QLogic JNI

多路径(Multi-pathing)数据收集
SDD
用以下命令来收集输出,最好是在发生错误时收集这些命令的输出

datapath query adapter
datapath query device

Veritas Volume Manager DMP
提供以下命令的输出:

ls -lL /dev/rdsk/*
ls -la /dev/vx/dmp/*
format

 

 

IBM TotalStorage SAN 存储设备数据收集


IBM TotalStorage DS4000家族磁盘系统

时间差
时间通常与Storage Manager PC同步. 要想显示和改变时间,从Storage Manager GUI 进入Storage Subsystem —> Set Controller Clock. 显示的时间就是IBM TotalStorage DS 4000 (以前的FAStT) 控制器时间。在改变它之前,记下时间差。

日志收集

1. 系统的profile

启动IBM FAStT Storage Manager 8 Client 并进入Subsystem Management. 选择View>>Storage Subsystem Profile:

 

选择Save As 将系统profile 保存下来,如果是一台FAStT500,其系列号为23A1234,建议文件名为 IBM_FAStT500_Profile_23A1234.txt

2.系统的错误日志:

在图1 中,选择选择View>>Event Log

确保View Only critical enents View Detail 的选择框为空,Retrieve most recent events1000,并按Update刷新。 点击Select All Save As

建议文件名为eventlogYYYYMMDD.log


 

3. 收集Read Link Status Diagnostics信息

Subsystem Management中,选择Storage Subsystem>> Read Link Status Diagnostics:

选择Save As 保存为LinkStatusYYYYMMDD.csv,然后点击Set Baseline,重新设置基准线,为以后的检测做准备。

 

Storage Manager9.1中收集DS4000日志更加简单:

1 打开storage manager client,点击”storage subsystem fastt”

  菜单中选择advancedàtroubleshootingàcollect all support data;

2 为将要收集到的文件取名(例子中是error log):

 

它会把DS4000有关的所有信息打包成一个.zip文件,信息会非常全面。



IBM TotalStorage 企业存储服务器
IBM TotalStorage Enterprise Storage Server™ 发生问题时,应该拨打IBM技术支持热线,请求进行远程支持,或在问题发生后立刻请IBM工程师现场支持来收集相关的日志PE packagestatesaves

3583 磁带库和SAN数据网关 (SDGM)

时间差
3583 磁带库
磁带库日期和时间可以从前面板上看到,请参考《3583 Setup and Operator Guide for Multi-Path Libraries》。

3583 SDGM
如果 3583 磁带库装有数据网关 SDGM, 联到 SDGM 串口用date 命令来显示时间和日期。
绝大多数的 SDGM 的时间并未被设置,因为它不影响操作,我们建议把它正确设置:

命令: rtcDateSet [year],[month],[dayofmonth],[dayofweek],[hour],[minute],[second]

例如要设置为2004126日上午 9:30

SN60023 > rtcDateSet 2004,1,26,5,9,30,00

注意时间是24H

然后用 dateSetFromRTC 命令设置SDGM的时间作为日期的显示源


SN60023 > dateSetFromRTC

然后用 date 命令来确认我们的修改:

SN60023 > date
SN60023 > FRI JAN 26 9:30:49 2004


日志收集:

3583 磁带库
请参考《The IBM TotalStorage Ultrium Scalable Tape Library 3583 Maintenance Information, SA37-0425 手册中的收集日志的方法来收集日志,并确保收集boot logs

3583 SGDM
用串口连到SDGM 并用终端仿真器发命令: supportDump,记录下所有的输出。
注意:这个命令会暂时中断SDGM的数据流,所以建议在没有磁带操作时再用它

 

IBM TotalStorage SAN 交换机数据收集

b-type 类型交换机

时间差
date命令来显示交换机日期和时间。
 
改正时间:
语法:

Date "mmddHHMMyy" (month,day,hour,minute,year)
例如: 设置时间到200522715:31
sw5:admin> date "0227153105"
Thu Feb 27 15:31:00 2005


日志收集

telnet ( Secure telnet) 登陆到SAN中的每一台交换机,记录下该命令的输出:

supportShow


收集完supportshow 后,用portLogClear 清除掉日志。用portStatsClear x (x 是你感兴趣的端口)清除端口统计日志。

Portstatsclear会清掉一个ASIC上所有端口的统计日志 (通常是4个端口). 所以要清掉交换机上所有的端口统计日志,必须对每个quad发出该命令。

硬件配置收集

请提供SAN的拓扑图,它会很有帮助。

Cisco光纤交换机

时间差
CLI中用
sh clock命令来显示交换机日期和时间。
 
日志收集
CLI
telnet ( SSH) 登陆到交换机,发出命令 term len 0 (这个命令可以让输出持续滚动)
发出命令 show tech-support details ( sh tech det )并收集输出结果。
可以用注销CLI sessionterm len 25 命令把term长度改回缺省设置。
这个操作必须在每个交换机上进行。

Fabric Manager GUI
show tech 的结果也可以通过 Fabric Manager 菜单中选择 Tools —> collect techSupport 来获得
Fabric Manager 来收集show tech , zip文件中会有一个示意当前fabric JPG 文件,为了全面显示当前的fabric,请确保该示意图包含了所有的光纤设备,并且显示完整.

硬件配置收集

请提供SAN的拓扑图,它会很有帮助。

m-type 类型交换机

时间差
EFCMhardware view中,从Configure菜单选择Date and Time菜单来获得交换机日期和时间。


日志收集
EFCMelement manager窗口中选择 Maintenance —> Data Collection. 它会在EFC管理工作站上生成一个zip 文件.

如果是用SanPilot 来管理交换机,请收集以下命令的输出(telnet到每个交换机)

show switch
show system
show zoning
show eventLog
show features
show loginServer
show nameServerExt
show port config
show port info
show port status
show port technology
show security fabricBinding
show security portBinding
show security switchBinding


提示: 输入不带参数的 show 命令,会进入交互状态,不用每次都输入show xxxxxx了。

硬件配置收集

EFCM Data Collection过程回包含硬件配置,但一个SAN的拓扑图也会很有帮助。

n-type类型交换机

时间差
modem线登陆到 FC9000 FCM debug 串口上,当前机器的时间会显示在窗口的上方。如果用GUI,当前机器的时间也会显示在窗口中。

注意: UMD / 2045-N16, 没有 debug串口。

日志收集
对当前机器状态的快照(snapshot ),可以收集包括日志在内的所有信息:

从任何管理客户机上选择File> Debug Backup,它会生成一个DebugBackup.zip 文件。我们可以只选择有问题的交换机来生成DebugBackup.zip文件,从而使得该文件最小。

 

 

EMC日志信息收集

flare release 19 以上微码

1.  "Storage" 标签下选中需要收集SPcollect SP

2. 右键点击目标SP然后选"SP Collect." 您应该看到一个操作成功提示: success”.

3. 对每一个SP,一般来说抓取SPcollect过程需要约15分钟。之后您需要右键点击目标SP然后选 "File Transfer Manager."

4. 选取打包好的SPcollect 文件 (文件格式一般为"chassisSerialNumber_spx_date_time_spsignatire_data.zip") 然后传到您管理机的相关目录(目录您可以在"File Transfer Manager"窗口的右上角指定)。

5.请选择最新的SPcollects文件,"chassisSerialNumber_spx_date_time_spsignatire_data.zip" 中的datetime可以给您指示出最新抓取的文件。

 

 

Flare release 13 或以下微码 不支持图形化界面的抓取功能所以您需要按以下步骤使用用命令行来执行

在管理机打开一个命令行终端 

1. cd c:program filesemcnavisphere cli

2. navicli -h <SP_IP_address> spcollect -messner            

3. navicli -h <SP_IP_address> managefiles -list                  

4. navicli -h <SP_IP_address> managefiles -retrieve      

  
Example:

Index          Size in KB           Last Modified                          Filename

0                     3               06/14/04 11:02:15                 DeletedVolume.txt
1                  515              05/26/04 10:44:16                 ktdump-040526-144415.txt
2                  532              05/26/04 11:20:33                 ktdump-040526-152033.txt
3                  431              05/26/04 12:37:12                 ktdump-040526-163711.txt
4                  415              05/26/04 16:12:46                 ktdump-040526-201246.txt
5                  737              06/14/04 17:35:41                 ktdump-040614-213541.txt
6                  727              06/17/04 14:52:34                 ktdump-040617-185234.txt
7                  468              06/17/04 17:08:01                 ktdump-040617-210801.txt
8                      0              06/17/04 17:08:50                 ktdump_log.txt
9                      0              06/14/04 11:26:41                 naviagent_Jun-14-04_15-26-37.log
10                    0              06/14/04 17:38:28                 naviagent_Jun-14-04_21-38-22.log
11                    0              06/17/04 17:08:01                 naviagent_Jun-17-04_18-55-16.log
12                    0              06/25/04 07:05:16                 naviagent_Jun-17-04_21-08-46.log
13                996              05/27/04 15:25:54                 SPA__APM00023000437_9c773_05-27-2004_46_data.zip
14              1029              05/27/04 15:39:33                 SPA__APM00023000437_9c773_05-27-2004_26_data.zip
15              1489              06/25/04 06:47:00                 SPA__APM00023000437_9c773_06-25-2004_33_data.zip
16              1205              07/01/04 14:33:52                 SPA__APM00023000437_9c773_07-01-2004_35_data.zip
17                    1              06/25/04 07:05:13                 em_logs.zip

 

5. 按照Index号选取需要抓取的SPcollects包。您可以用逗号同时抓取多个 (1,2,3,4,5) 或者选取一个范围(1-3)输入”quit”可以退出。

For exampe:

> 16

这会从相应SP(这里是SPA抓取Index号为16SPcollects包然后 copy c:program filesemcnavisphere cli 目录。 文件名即是 SPA__APM00023000437_9c773_07-01-2004_35_data.zip.

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

0

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广