zcome
作者zcome·2018-03-23 09:59
系统工程师·zzz

系统多次夯住问题分析

字数 2333阅读 2827评论 4赞 5

AIX: 6100-06-06
系统多次发生夯死,可以ping通,但是无法登入,包括hmc也不能登入。因此重启收了dump。
查看dump数据:
(0)>
pvthread+0FD500 STACK:
[0053577C]slock+00011C (0000000000000000, F00000002FF45B60 [??])
[00009558].simple_lock+000058 ()
[00175A88]bmFree+000108 (??, ??)
[00176338]bmRecycle+000698 (??, ??)
[0017B660]bmAssign+000640 (??, ??, ??, ??, ??, ??)
[0017AA5C]bmRead+00009C (??, ??, ??, ??, ??, ??)
[003C07A0]dtSearch+0004C0 (??, ??, ??, ??, ??)
[003DE208]j2_lookup+000388 (??, ??, ??, ??, ??, ??)
[00586AE4]vnop_lookup+000184 (??, ??, ??, ??, ??, ??)
[005491A4]lookuppn+000A04 (??, ??, ??, ??, ??, ??, ??, ??)
[00549960]lookupname_internal+0000A0 (??, ??, ??, ??, ??, ??, ??, ??)
[00549A84]lookupname_cur+000024 (??, ??, ??, ??, ??, ??, ??)
[0076738C]accessx+0002AC (??, ??, ??)
[0076679C]access+00003C (??, ??)
[00003850]ovlya_addr_sc_flih_main+000130 ()
[kdb_get_virtual_memory] no real storage @ 12FF22518

通过堆栈数据查询到此问题为系统bug:IV17291: JFS2 FILESYSTEM HANG IN BMASSIGN APPLIES TO AIX 6100-06

由于系统短期内多次触发此bug,导致生产系统受影响,所以后续又做了进一步分析:
On AIX 6.1 TL5 and later TLs a JFS2 filesystem may hang,causing all commands accessing that filesystem to hang and to be unkillable.
从bug描述可以看出,此问题为jfs2文件系统问题,说明会有I/O无法完成,于是查看了当时pending的I/O:
(0)>

           SLOT   NEXTIO           DEVICE  DMSRVAL    IOCNT    OLDIO <name>

vmmary_pdt+006DB0 0082 FFFFFFFF 8000000A00000007 AC002C080 00000008 00000000 local client
vmmary_pdt+006F60 0084 FFFFFFFF 8000000A00000005 00000000 0000000F 00000000 local client
vmmary_pdt+007620 008C FFFFFFFF 8000000A00000010 00000000 00000001 00000000 local client
vmmary_pdt+0078A8 008F FFFFFFFF 8000002600000001 00000000 00000001 00000000 local client
vmmary_pdt+007A58 0091 FFFFFFFF 8000000A00000013 00000000 00000008 00000000 local client

可以看到有5个文件系统上有未完成的I/O,查询后发现为下面文件系统:
CuDvDr:

resource = "devno"
value1 = "38"
value2 = "1"
value3 = "Plv_WebSphere"

CuDvDr:

resource = "devno"
value1 = "10"
value2 = "5"
value3 = "hd2"

CuDvDr:

resource = "devno"
value1 = "10"
value2 = "7"
value3 = "hd3"

CuDvDr:

resource = "devno"
value1 = "10"
value2 = "10"
value3 = "hd11admin"

CuDvDr:

resource = "devno"
value1 = "10"
value2 = "13"
value3 = "loglv00"

除了第一个为WAS使用的文件系统,其他都是rootvg下的系统所用文件系统。所以尝试umount后fsck,等待后续补丁安装。

看来我得补充一下了,本来我以为大家都是搞技术的,不用写那么详细。
如果打开补丁看,就可以知道在当前使用的6100-06上,升级到6100-06-09就可以解决问题,我所谓的等待后续补丁安装,不是说等待IBM出补丁,而是说出问题的都是生产系统,不可能想装补丁就装了,需要窗口来做。。。
至于此系统,最后是升级到当时定的基线版本6100-09-10了。。。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

5

添加新评论4 条评论

zwz99999zwz99999系统工程师dcits
2018-03-26 16:41
升级你的aix系统补丁到aix6.1的最新版本试试,现在应该是6109sp11
michaelchenmichaelchen研发工程师RCC
2018-03-26 16:02
又是 bug…………
wuwenpinwuwenpin软件开发工程师南京
2018-03-25 09:05
学习
neilruleneilrule系统运维工程师zhou
2018-03-24 08:57
6.1应该不会有补丁了,建议升级7.2

neilrule@zcome 牛逼,在下面的某个版本有修复就好,不然是不太可能专门帮你做补丁的了。

2018-04-23 13:01

zcome@neilrule 你都不看一下补丁说明,怎么会知道没补丁? 6.1tl6-tl9全都有补丁。。。

2018-03-24 21:39
Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广