差点把生产主机的LUN给FORMAT了!

今天给一个客户扩容文件系统的时候差点犯了个大错,差点把一个MAPPING到一台生产主机的LUN给FORMAT了!主机系统:P6 550 AIX5.3 HACMP5.3存储系统:HDS AMS 200应用:DOMINO NOTES因OA系统容量只剩10G多点,需要扩容;把一台旧主机上撤下来的LUN MAPPING到OA主机。好吧,干活。1.抱上笔...显示全部
今天给一个客户扩容文件系统的时候差点犯了个大错,差点把一个MAPPING到一台生产主机的LUN给FORMAT了!

主机系统:P6 550 AIX5.3 HACMP5.3
存储系统:HDS AMS 200
应用:DOMINO NOTES
因OA系统容量只剩10G多点,需要扩容;把一台旧主机上撤下来的LUN MAPPING到OA主机。
好吧,干活。

1.抱上笔记本,打开Storage Navigator Modular GUI登录管理控制台。写到这里,我忍不住再次感到困惑:为什么HDS的管理密码不是在阵列上设定,而是在安装了Storage Navigator Modular GUI客户端上设定呢?那多危险!

2.凭着以前的记忆,三下5除2就把旧主机的LUN给UNMAPPING下来,并MAPPING到OA两台主机上了。
3.识别硬盘吧
#cfgmgr -vl fcs0
#cfgmgr -vl fcs1
#/usr/DynamicLinkManager/bin/dlmcfgmgr
dlmfdrv0 可用
dlmfdrv1 可用
dlmfdrv2 可用

# lspv
hdisk0          000345a76cc6fc03                    rootvg          active
hdisk1          000345a72fc97c3c                    rootvg          active
hdisk2          none                                None            
hdisk3          none                                None            
dlmfdrv0        000344b9f4ebfc92                    hbvg            concurrent
dlmfdrv1        000344b9f4ee1d74                    dominovg        active
hdisk8          none                                None            
hdisk9          none                                None            
dlmfdrv2        none                                None            
hdisk6          none                                None            
hdisk7          none                                None            
都识别到了,其中dlmfdrvX就是HDLM生成的为设备。

4.创建PV
# chdev -l dlmfdrv2 -a pv=yes
方法错误(/usr/lib/methods/chgdlmfdrv):
        0514-010 自 odm_run_method 返回错误。
     pv     
     pv     
出错了。另外一台主机上也出现同样的错误;尝试RMDEV,居然也报错,提示IO错误还是什么的。
我想,该不会是HBA卡或者阵列有问题吧。可是细想,不会啊,其他的LUN不是用的好好的嘛。

5.检查HDLM的情况吧
# /usr/DynamicLinkManager/bin/dlnkmgr view -drv
PathID HDevName Device LDEV
000000 dlmfdrv0 hdisk2 AMS.73040163.0006
000001 dlmfdrv0 hdisk6 AMS.73040163.0006
000002 dlmfdrv1 hdisk3 AMS.73040163.0007
000003 dlmfdrv1 hdisk7 AMS.73040163.0007
000004 dlmfdrv2 hdisk8 AMS.73040163.0008
000005 dlmfdrv2 hdisk9 AMS.73040163.0008
KAPL01001-I The HDLM command completed normally. Operation name = view, completion time = 2009/11/19 18:14:34

# /usr/DynamicLinkManager/bin/dlnkmgr view–-sys
KAPL01004-W The operation name is invalid. Operation name = viewC-sys

# /usr/DynamicLinkManager/bin/dlnkmgr view -sys
HDLM Version                 : 05-81
Service Pack Version         :
Load Balance                 : on(rr)
Support Cluster              :
Elog Level                   : 3
Elog File Size (KB)          : 9900
Number Of Elog Files         : 2
Trace Level                  : 0
Trace File Size (KB)         : 1000
Number Of Trace Files        : 4
Path Health Checking         : on(30)
Auto Failback                : on(60)
Reservation Status           : on(0)
Intermittent Error Monitor   : off
HDLM Manager Ver      WakeupTime
Alive        05-81    2009/11/19 18:12:51
HDLM Alert Driver Ver      WakeupTime          ElogMem Size
Alive             05-81    2009/10/15 01:28:07 4000
HDLM Driver Ver      WakeupTime
Alive       05-81    2009/10/15 01:28:08
License Type Expiration
Permanent    -
KAPL01001-I The HDLM command completed normally. Operation name = view, completion time = 2009/11/19 18:16:14

# /usr//usr/DynamicLinkManager/bin/dlnkmgr view -path
ksh: /usr//usr/DynamicLinkManager/bin/dlnkmgr: 找不到。
# /usr/DynamicLinkManager/bin/dlnkmgr view -path
Paths:000006 OnlinePaths:000006
PathStatus   IO-Count    IO-Errors
Online       696826304   44        
PathID PathName                        DskName                                    iLU              ChaPort Status     Type IO-Count   IO-Errors  DNum HDevName
000000 08.05.0000000000610013.0006     HITACHI .DF600F          .73040163         0006             1A      Online     Non       10028          0    0 dlmfdrv0
000001 08.06.0000000000610013.0006     HITACHI .DF600F          .73040163         0006             0A      Online     Own     5562502          5    0 dlmfdrv0
000002 08.05.0000000000610013.0007     HITACHI .DF600F          .73040163         0007             1A      Online     Non     1985472          0    0 dlmfdrv1
000003 08.06.0000000000610013.0007     HITACHI .DF600F          .73040163         0007             0A      Online     Own   689268302         39    0 dlmfdrv1
000004 08.05.0000000000610013.0005     HITACHI .DF600F          .73040163         0008             1A      Online     Non           0          0    0 dlmfdrv2
000005 08.06.0000000000610013.0005     HITACHI .DF600F          .73040163         0008             0A      Online     Own           0          0    0 dlmfdrv2
KAPL01001-I The HDLM command completed normally. Operation name = view, completion time = 2009/11/19 18:17:09

好像也没发现什么明显错误。
难道是旧主机在没有EXPORT的情况下就把光纤拔了,导致该LUN上有原VG和PVID等信息?
难道要在阵列端FORMAT这个LUN?

6.回到阵列,仔细回想刚才的操作。终于让我发现原来我把已经分配给另一台AIX主机的LUN MAPPING到OA主机了!而且这个LUN一直在用!
刚才粗心,把H-LUN ID看成是LUN ID了,误将LUN8 MAPPING到OA上了。
还好,没把这个LUN8给FORMAT了(HDS阵列创建的LV需要先FORMAT才能MAP)!

7.把LUN8从OA上删除,然后把正确的LUN MAP到OA

heyuan_hds_lun.JPG




8.识别LUN,创建PV,正常。回到LUN8所在主机,还好PV和VG都毫发无损。

9.使用hacmp c-spoc 来extendvg extendfs

10.最后lspv检查新添加LUN是否成功加入OA两台主机相应卷组
Node1
# lspv
hdisk0          000345a76cc6fc03                    rootvg          active
hdisk1          000345a72fc97c3c                    rootvg          active
hdisk2          none                                None            
hdisk3          none                                None            
dlmfdrv0        000344b9f4ebfc92                    hbvg            concurrent
dlmfdrv1        000344b9f4ee1d74                    dominovg        active
hdisk8          none                                None            
hdisk9          none                                None            
dlmfdrv2        000345a70c2be00e                    dominovg        active
hdisk6          none                                None            
hdisk7          none                                None            
#

Node2
# lspv
hdisk0          000344b96ca1ba08                    rootvg          active
hdisk1          000344b930963e28                    rootvg          active
hdisk2          none                                None            
hdisk3          none                                None            
dlmfdrv0        000344b9f4ebfc92                    hbvg            concurrent
dlmfdrv1        000344b9f4ee1d74                    dominovg        
hdisk6          none                                None            
hdisk7          none                                None            
hdisk8          none                                None            
hdisk9          none                                None            
dlmfdrv2        000345a70c2be00e                    dominovg      

11.df -g检查文件系统是否已经扩容
# df -g
文件系统           GB 块      可用 %Used    Iused %Iused     安装于
/dev/hd4            0.12      0.06   54%     2607    16% /
/dev/hd2            8.00      3.10   62%    48252     7% /usr
/dev/hd9var         3.00      0.92   70%     1195     1% /var
/dev/hd3            2.00      1.56   23%      396     1% /tmp
/dev/fwdump         0.12      0.12    1%        4     1% /var/adm/ras/platform
/dev/hd1            0.12      0.12    1%       49     1% /home
/proc                  -         -    -         -     -  /proc
/dev/hd10opt        1.00      0.89   11%     1405     1% /opt
/dev/fslv01       184.88    100.22   46%     4589     1% /domino

一点教训:LUN MAPPING 的时候,要注意LUN ID千万别出错。
由于对EMC存储比较熟悉,极少玩HDS,这次差点由于误操作酿成大错。
同志们谨记啊。收起
参与47

查看其它 34 个回答风影子的回答

风影子风影子数据库管理员深圳

学习了,谢谢分享。

互联网服务 · 2017-02-04
浏览3392

回答者

风影子
数据库管理员深圳
擅长领域: 服务器LinuxUnix

风影子 最近回答过的问题

回答状态

  • 发布时间:2017-02-04
  • 关注会员:4 人
  • 回答浏览:3392
  • X社区推广