从errpt来看,操作系统在8月12日有如下告警。IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTIONA6DF45AA 0812191315 I O RMCdaemon The daemon is started.67145A39 0812191215 U S SYSDUMP&n...
显示全部从errpt来看,操作系统在8月12日有如下告警。
IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION
A6DF45AA 0812191315 I O RMCdaemon The daemon is started.
67145A39 0812191215 U S SYSDUMP SYSTEM DUMP
F48137AC 0812191215 U O minidump COMPRESSED MINIMAL DUMP
9D035E4D 0812191215 P S SYSVMM DATA STORAGE INTERRUPT, PROCESSOR
9DBCFDEE 0812191315 T O errdemon ERROR LOGGING TURNED ON
其中最核心的是67145A39 0812191215 U S SYSDUMP SYSTEM DUMP这一条。
这一条的意思是操作系统宕机了,并产生了dump。
因此后续要分析dump数据,看看宕机的原因是什么。
一、如果你的机器有800服务,开个PMR,并把snap -ac数据上传,请他们分析宕机原因
二、如果没有800服务,那你只能自己看dump了。
1:检查dump是否成功:
#sysdumpdev -L
确认输出有:
Dump status:0
dump completed successfully
2:把dump转出来
#snap -r;snap -D
snap -D是把dump从dump设备拷贝到/tmp/ibmsupt/dump下面,因为我们直接在本地处理,
所以不用-c再压缩一遍了。
需要注意的是,因为dump默认我们都是压缩的,解开以后会非常大,如果/tmp空间不够的话,
可以在snap的时候用-d /dir 参数更改snap的工作目录为一个空间足够的文件系统里边。
dump目录下,有以下几个文件:
dump.BZ 这个是压缩的dump文件,用dmpuncompress dump.BZ解压。
unix.Z 产生dump主机的aix 核心,用uncompress unix.Z 解压。
kdb,kdb_64 产生dump主机的kdb工具,uncompress之!
因为我们分析dump的主机往往和目标主机aix版本不一致,所以收集dump的时候,会把目标主机的
kernel和kdb工具都包含进来,一点要用和dump匹配的kernel和kdb,否则无法分析dump。
3:打开dump。
解开以后,打开dump就简单了,其实就是用dump目录里边的kdb来打开。
#./kdb dump unix
cdtc[/dump/zengdb/53021.000.672/dump]#uncompress unix.Z
cdtc[/dump/zengdb/53021.000.672/dump]#./kdb dump unix
The specified kernel file is a 64-bit kernel
dump mapped from @ 700000000000000 to @ 700000298e185e5
Preserving 1412209 bytes of symbol table
First symbol __mulh
Component Names:
1) minidump [2 entries]
2) dmp_minimal [9 entries]
3) proc [3327 entries]
4) thrd [5929 entries]
5) rasct [1 entries]
6) ldr [2 entries]
7) iplcb [1 entries]
8) errlg [3 entries]
9) mtrc [38 entries]
10) lfs [1 entries]
11) bos [2 entries]
12) ipc [7 entries]
13) vmm [14 entries]
14) alloc_kheap [256 entries]
15) alloc_other [690 entries]
16) rtastrc [1 entries]
17) sisraid [2 entries]
18) sscsidd [4 entries]
19) aixpcm [14 entries]
20) efcdd [42 entries]
21) scdisk [13 entries]
22) lvm [2 entries]
23) jfs2 [1 entries]
24) tty [4 entries]
25) netstat [10 entries]
26) goent_dd [10 entries]
27) vpathdd [60 entries]
28) scsidisk [374 entries]
29) efscsi [5 entries]
30) dump_statistics [1 entries]
Component Dump Table has 10825 entries
START END
0000000000001000 0000000003DF7050 start+000FD8
F00000002FF47600 F00000002FFDC940 __ublock+000000
000000002FF22FF4 000000002FF22FF8 environ+000000
000000002FF22FF8 000000002FF22FFC errno+000000
F100070F00000000 F100070F10000000 pvproc+000000
F100070F10000000 F100070F18000000 pvthread+000000
PFT:
PVT:
id....................0002
raddr.....0000000002000000 eaddr.....F200800130000000
size..............00080000 align.............00001000
valid..1 ros....0 fixlmb.1 seg....0 wimg...2
Dump analysis on CHRP_SMP_PCI POWER_PC POWER_5 machine with 12 available CPU(s) (64-bit registers)
Processing symbol table...
.......................done
(0)>
现在dump就正式打开,可以作进一步的分析了,
如果有想深入研究的话,建议下载AIX官方文档(inforcenter和aix文档盘上都有)里边kdb手册
和汇编手册。收起