在解决SAN有关的问题时应该收集的基本信息。如果能够及时收集到这些信息,对加速问题的解决会大有帮助。我们最好不要假设问题出在最明显得地方而不全面收集数据。通过全面收集SAN相关的数据,我们将会大大增加获得快速解决问题的机会。另一个妨碍问题快速解决的原因是数据的收集是在问题发生后的数小时甚至几天后,这种情况下,往往导致原始问题的原因已不复存在了。及时和全面收集数据将会帮助问题的快速解决。下面介绍了收集主机(服务器)、存储设备、交换机等有关信息的步骤。大家都知道收集日志信息的重要性,但是有时一些主机的时间没有被正确设置,所以我们需要知道主机时间和正确时间的差异。另外一个SAN的物理连接示意拓扑图也是非常重要的信息来源,它必须是更新的,包含了SAN中所有的主机,交换机,存储设备,它会大大减少从所有的日志中重构整个构架图的时间。
1、AIX
1>时间差
用date命令来显示系统日期和时间。
2>日志收集
收集errpt和errpt -a(输出到两个独立文件中)
3>收集硬件配置
收集 snap 信息,为IBM TotalStorage DS 产品问题收集信息的命令是
snap –gfiLc
其中:
g - 收集lslpp -hBc 命令的输出,即收集操作系统的环境
f - 收集文件系统信息
i - 收集安装调试VPD信息
L - 收集LVM 信息
c – 产生一个压缩的pax 文件(snap.pax.Z)
2、多路径(Multi-pathing)数据收集
1>SDD (AIX的各种版本)用以下命令来收集输出(这些数据不包含在snap中),最好是在发生错误时收集这些命令的输出:
datapath query adapter
datapath query device
lsvpcfg
2>MPIO (AIX 5.2及以上版本可用)用以下命令来收集输出(这些数据不包含在snap中):
pcmpath query adapter
pcmpath query device
pcmpath query essmap
HP主机数据收集
3、HP-UX
1>时间差
用date命令来显示系统日期和时间。
2>日志收集
收集/var/adm/syslog/syslog.log 文件
3>收集硬件配置
对每个在SAN中的服务器提供以下的详细信息:
制造商 、机器类型和型号(Type/Model) 、特性详细情况:如CPU特性, 内存数量等
HBA 详情:
制造商,品牌、型号 /BIOS (firmware) 版本 – 如果是QLogic ,还需要BIOS 设置情况 /Driver 版本
4>软件配置收集
收集 uname -a 的输出信息
5>多路径(Multi-pathing)数据收集
SDD用以下命令来收集输出,最好是在发生错误时收集这些命令的输出:
datapath query adapter
datapath query device
linux系统数据收集
4、Linux
1>时间差
用date命令来显示系统日期和时间。
2>日志收集
收集/var/log/messages 文件
收集dmesg 命令的输出
3>硬件配置收集
对于 IBM xSeries 服务器, 最好的收集配置数据的方法是使用e-gatherer 工具。 同时提供HBA 卡的详情。可以从以下网站下载e-gatherer : http://www-306.ibm.com/pc/support/site.wss/MIGR-4R5VKC.html
4>软件配置收集
收集 uname -a 的输出信息
注:如果是用Redhat, 安装并运行 sysreport 并收集它的输出.
5>多路径(Multi-pathing)数据收集
SDD用以下命令来收集输出,最好是在发生错误时收集这些命令的输出:
datapath query adapter
datapath query device
Microsoft Windows系统数据收集
5、Windows
时间差
在命令行窗口中用date和time命令来显示系统日期和时间。
收集日志
请在发生事件后立刻保存system logs 和application logs. (不要输出成EVT 格式)
保存系统日志:鼠标右键单击“我的电脑”->“管理”:
选择:
系统工具 —> 时间查看器 —> 系统日志
然后:
点击操作 —> 另存日志文件,并将类型改为CSV
重复以上步骤,收集应用程序日志.
硬件配置收集
对于 IBM xSeries 服务器, 最好的收集配置数据的方法是使用e-gatherer 工具。 同时提供HBA 卡的详情。可以从以下网站下载e-gatherer :
http://www-306.ibm.com/pc/support/site.wss/MIGR-4R5VKC.html
软件配置收集
如果不能提供e-gatherer 数据请提供:
多路径(Multi-pathing)数据收集
SDD
用以下命令来收集输出,最好是在发生错误时收集这些命令的输出:
datapath query adapter
datapath query device
Novell Netware
时间差
显示系统日期和时间并记录。
日志收集
CONLOG.EXE 程序可以把所有系统控制台的信息写入一个.LOG 文件。
可以参考以下网站查看详细信息:
http://www.novell.com/documentation/lg/nw42/index.html?utlrfenu/data/hq1lykxx.html
软件配置收集:
多路径(Multi-pathing)数据收集
SDD
用以下命令来收集输出,最好是在发生错误时收集这些命令的输出:
datapath query adapter
datapath query device
SUN Solaris
时间差
用date命令来显示系统日期和时间。
日志收集
收集/var/adm/messages文件。几天前的记录会存在/var/adm/messagesx中,其中的x是过去几天的天数。
收集硬件配置
对每个在SAN中的服务器提供以下的详细信息:
软件配置收集:
根据HBA卡的情况收集/kernel/drv/*.conf 文件,其中 * 是QLogic 或JNI。
多路径(Multi-pathing)数据收集
SDD
用以下命令来收集输出,最好是在发生错误时收集这些命令的输出:
datapath query adapter
datapath query device
Veritas Volume Manager DMP
提供以下命令的输出:
ls -lL /dev/rdsk/*
ls -la /dev/vx/dmp/*
format
IBM TotalStorage DS4000家族磁盘系统
时间差
时间通常与Storage Manager PC同步. 要想显示和改变时间,从Storage Manager GUI 进入Storage Subsystem —> Set Controller Clock. 显示的时间就是IBM TotalStorage DS 4000 (以前的FAStT) 控制器时间。在改变它之前,记下时间差。
1. 系统的profile
启动IBM FAStT Storage Manager 8 Client, 并进入Subsystem Management. 选择View>>Storage Subsystem Profile:
选择Save As, 将系统profile 保存下来,如果是一台FAStT500,其系列号为23A1234,建议文件名为 IBM_FAStT500_Profile_23A1234.txt。
2.系统的错误日志:
在图1 中,选择选择View>>Event Log:
确保View Only critical enents 和 View Detail 的选择框为空,Retrieve most recent events为1000,并按Update刷新。 点击Select All, 并Save As:
建议文件名为eventlogYYYYMMDD.log
3. 收集Read Link Status Diagnostics信息
在Subsystem Management中,选择Storage Subsystem>> Read Link Status Diagnostics:
选择Save As, 保存为LinkStatusYYYYMMDD.csv,然后点击Set Baseline,重新设置基准线,为以后的检测做准备。
在Storage Manager9.1中收集DS4000日志更加简单:
1 打开storage manager client,点击”storage subsystem fastt”,
菜单中选择advancedàtroubleshootingàcollect all support data;
2 为将要收集到的文件取名(例子中是error log):
它会把DS4000有关的所有信息打包成一个.zip文件,信息会非常全面。
IBM TotalStorage 企业存储服务器
当 IBM TotalStorage Enterprise Storage Server™ 发生问题时,应该拨打IBM技术支持热线,请求进行远程支持,或在问题发生后立刻请IBM工程师现场支持来收集相关的日志PE package和statesaves 。
3583 磁带库和SAN数据网关 (SDGM)
时间差
3583 磁带库
磁带库日期和时间可以从前面板上看到,请参考《3583 Setup and Operator Guide for Multi-Path Libraries》。
3583 SDGM
如果 3583 磁带库装有数据网关 SDGM, 联到 SDGM 串口用date 命令来显示时间和日期。
绝大多数的 SDGM 的时间并未被设置,因为它不影响操作,我们建议把它正确设置:
命令: rtcDateSet [year],[month],[dayofmonth],[dayofweek],[hour],[minute],[second]
例如要设置为2004年1月26日上午 9:30 :
SN60023 > rtcDateSet 2004,1,26,5,9,30,00
注意时间是24H。
然后用 dateSetFromRTC 命令设置SDGM的时间作为日期的显示源
SN60023 > dateSetFromRTC
然后用 date 命令来确认我们的修改:
SN60023 > date
SN60023 > FRI JAN 26 9:30:49 2004
日志收集:
3583 磁带库
请参考《The IBM TotalStorage Ultrium Scalable Tape Library 3583 Maintenance Information, SA37-0425》 手册中的收集日志的方法来收集日志,并确保收集boot logs。
3583 SGDM
用串口连到SDGM 并用终端仿真器发命令: supportDump,记录下所有的输出。
注意:这个命令会暂时中断SDGM的数据流,所以建议在没有磁带操作时再用它。
b-type 类型交换机
时间差
用date命令来显示交换机日期和时间。
改正时间:
语法:
Date "mmddHHMMyy" (month,day,hour,minute,year)
例如: 设置时间到2005年2月27日15:31
sw5:admin> date "0227153105"
Thu Feb 27 15:31:00 2005
日志收集:
telnet (或 Secure telnet) 登陆到SAN中的每一台交换机,记录下该命令的输出:
supportShow
收集完supportshow 后,用portLogClear 清除掉日志。用portStatsClear x (x 是你感兴趣的端口)清除端口统计日志。
Portstatsclear会清掉一个ASIC上所有端口的统计日志 (通常是4个端口). 所以要清掉交换机上所有的端口统计日志,必须对每个quad发出该命令。
硬件配置收集
请提供SAN的拓扑图,它会很有帮助。
Cisco光纤交换机
时间差
在CLI中用sh clock命令来显示交换机日期和时间。
日志收集
CLI
用 telnet (或 SSH) 登陆到交换机,发出命令 term len 0 (这个命令可以让输出持续滚动)
发出命令 show tech-support details (或 sh tech det )并收集输出结果。
可以用注销CLI session或term len 25 命令把term长度改回缺省设置。
这个操作必须在每个交换机上进行。
Fabric Manager GUI
show tech 的结果也可以通过 Fabric Manager 菜单中选择 Tools —> collect techSupport 来获得
用Fabric Manager 来收集show tech 时, 在zip文件中会有一个示意当前fabric的 JPG 文件,为了全面显示当前的fabric,请确保该示意图包含了所有的光纤设备,并且显示完整.
硬件配置收集
请提供SAN的拓扑图,它会很有帮助。
m-type 类型交换机
时间差
在EFCM的hardware view中,从Configure菜单选择Date and Time菜单来获得交换机日期和时间。
日志收集
在EFCM的element manager窗口中选择 Maintenance —> Data Collection. 它会在EFC管理工作站上生成一个zip 文件.
如果是用SanPilot 来管理交换机,请收集以下命令的输出(telnet到每个交换机)
show switch
show system
show zoning
show eventLog
show features
show loginServer
show nameServerExt
show port config
show port info
show port status
show port technology
show security fabricBinding
show security portBinding
show security switchBinding
提示: 输入不带参数的 show 命令,会进入交互状态,不用每次都输入show xxxxxx了。
硬件配置收集
EFCM Data Collection过程回包含硬件配置,但一个SAN的拓扑图也会很有帮助。
n-type类型交换机
时间差
用modem线登陆到 FC9000 的FCM debug 串口上,当前机器的时间会显示在窗口的上方。如果用GUI,当前机器的时间也会显示在窗口中。
注意: UMD / 2045-N16, 没有 debug串口。
日志收集
对当前机器状态的快照(snapshot ),可以收集包括日志在内的所有信息:
从任何管理客户机上选择File> Debug Backup,它会生成一个DebugBackup.zip 文件。我们可以只选择有问题的交换机来生成DebugBackup.zip文件,从而使得该文件最小。
EMC日志信息收集
flare release 19 以上微码
1. 在 "Storage" 标签下选中需要收集SPcollect 的SP。
2. 右键点击目标SP然后选"SP Collect." 您应该看到一个操作成功提示: “success”.
3. 对每一个SP,一般来说抓取SPcollect过程需要约15分钟。之后您需要右键点击目标SP然后选 "File Transfer Manager."
4. 选取打包好的SPcollect 文件 (文件格式一般为"chassisSerialNumber_spx_date_time_spsignatire_data.zip") 然后传到您管理机的相关目录(目录您可以在"File Transfer Manager"窗口的右上角指定)。
5.请选择最新的SPcollects文件,"chassisSerialNumber_spx_date_time_spsignatire_data.zip" 中的date和time可以给您指示出最新抓取的文件。
Flare release 13 或以下微码 – 不支持图形化界面的抓取功能所以您需要按以下步骤使用用命令行来执行
在管理机打开一个命令行终端
1. cd c:program filesemcnavisphere cli
2. navicli -h <SP_IP_address> spcollect -messner
3. navicli -h <SP_IP_address> managefiles -list
4. navicli -h <SP_IP_address> managefiles -retrieve
Example:
Index Size in KB Last Modified Filename
0 3 06/14/04 11:02:15 DeletedVolume.txt
1 515 05/26/04 10:44:16 ktdump-040526-144415.txt
2 532 05/26/04 11:20:33 ktdump-040526-152033.txt
3 431 05/26/04 12:37:12 ktdump-040526-163711.txt
4 415 05/26/04 16:12:46 ktdump-040526-201246.txt
5 737 06/14/04 17:35:41 ktdump-040614-213541.txt
6 727 06/17/04 14:52:34 ktdump-040617-185234.txt
7 468 06/17/04 17:08:01 ktdump-040617-210801.txt
8 0 06/17/04 17:08:50 ktdump_log.txt
9 0 06/14/04 11:26:41 naviagent_Jun-14-04_15-26-37.log
10 0 06/14/04 17:38:28 naviagent_Jun-14-04_21-38-22.log
11 0 06/17/04 17:08:01 naviagent_Jun-17-04_18-55-16.log
12 0 06/25/04 07:05:16 naviagent_Jun-17-04_21-08-46.log
13 996 05/27/04 15:25:54 SPA__APM00023000437_9c773_05-27-2004_46_data.zip
14 1029 05/27/04 15:39:33 SPA__APM00023000437_9c773_05-27-2004_26_data.zip
15 1489 06/25/04 06:47:00 SPA__APM00023000437_9c773_06-25-2004_33_data.zip
16 1205 07/01/04 14:33:52 SPA__APM00023000437_9c773_07-01-2004_35_data.zip
17 1 06/25/04 07:05:13 em_logs.zip
5. 按照Index号选取需要抓取的SPcollects包。您可以用逗号同时抓取多个 (1,2,3,4,5) 或者选取一个范围(1-3)。输入”quit”可以退出。
For exampe:
> 16
这会从相应SP(这里是SPA)抓取Index号为16的SPcollects包然后 copy 到c:program filesemcnavisphere cli 目录。 文件名即是 SPA__APM00023000437_9c773_07-01-2004_35_data.zip.
如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!
赞0
添加新评论0 条评论