运行环境为虚拟化环境,操作系统磁盘采用vscsi方式,碰到过几次都没有生成完整的dump,仅有minidump,根本无法分析故障原因。请教一下,如何确保稳定生成完整的dump?谢谢解答!
可能是dump空间不够吧,sysdumpdev -e看一下大小,可以适当扩大lv一下,然后#/usr/lib/ras/dumpcheck,无报错即正常
收起检查系统当前的DUMP设备空间:** Primary DUMP 设备默认是 /dev/hd6 。 DUMP 设备应该有足够大的空间,否则会导致 DUMP 数据收集不完整。可用“ sysdumpdev –e ”命令估算系统 DUMP 的大小:
# sysdumpdev –e
0453-041 Estimated dump size in bytes: 18664652
DUMP 设备的空间要比估算值大,并要留有足够的余量,例如比估算指大 30~50% 。 AIX 5L 中的 dumpcheck 命令用于检查 DUMP 设备及 DUMP 拷贝目录是否有足够的空间。系统默认会在每天 3:00PM 运行 dumpcheck ,如果发现空间不足会记录在系统 error log 中。
由于默认的第一 DUMP 设备 /dev/hd6 是内存交换区,系统在重启时必须把 DUMP 拷贝到文件系统或磁带。这样系统重启过程比较长,在某些情况下客户因为急于恢复应用,而选择了放弃 DUMP 拷贝,从而导致 DUMP 数据的丢失!为此,如果 rootvg 有足够空间,应建立专用的第一 DUMP 设备,而不要用内存交换区。(如果系统内存大于 4GB ,则 AIX5L 会自动建立专用的 DUMP 设备: /dev/lg_dumplv )。
不要用 /dev/hd6 以外的内存交换区作 Primary DUMP 设备。
Secondary DUMP 设备默认是 /dev/sysdumpnull ,也就是如果 Primary DUMP 设备写失败,则 DUMP 信息会被丢掉。因此,客户如果有足够空间可以建立专用的 Secondary DUMP 设备或使用 rootvg 的内存交换区。
forced copy flag设置 | Primary DUMP设备为/dev/hd6 | Primary DUMP设备为/dev/lg_dumplv |
TRUE(默认值) | 尝试拷贝DUMP到设定的目录。如果拷贝失败,提示用磁带或其他介质拷贝。如果用户选择退出,则DUMP数据丢失。极个别情况下由于主控台不能被识别,系统会挂死在代码549,不能正常启动。 | 不拷贝DUMP到设定的目录。DUMP数据继续保存在专用的逻辑卷中,数据不会丢失。直到下次做DUMP时才被覆盖。 |
FALSE | 尝试拷贝DUMP到设定的目录(文件系统)。如果拷贝失败,系统继续启动,DUMP数据丢失。 | 不拷贝DUMP到设定的目录。DUMP数据继续保存在专用的逻辑卷中,数据不会丢失。直到下次做DUMP时才被覆盖。 |
建议把该参数设为TRUE(默认值),以确保DUMP拷贝到文件系统失败时不会被丢弃。**
不同机型做Force DUMP的方法:**
RS6000 和 pSeries 型号众多,不同机型做 Force DUMP 的方法各有不同,所以有必要作一个总结。做 Force DUMP 的方法并不仅限于以下所列,这里只是列举较为便捷的方法。
注:PCI机型做Force Dump的前提是always allow dump要设为TRUE。**
a) HMC管理的服务器: 在 HMC 图形管理界面上选 Server and Partition => Server Management => 选要做 DUMP 的主机 => 选要做 DUMP 的分区 => 单击鼠标右键 => Restart Partition => 选 Dump ,然后按 OK 。
b) 无HMC管理的服务器:
方法1: 在控制面板上用上下键选择 02 菜单,把 System operating mode 从 Normal 改为 Manual ,即把“ N ”改为“ M ”。然后选择 22 菜单,按控制面板的回车键,面板显示 A 1 0 0 3 0 2 2 ,用上下键再次选择 22 菜单,再按面板回车键。
方法2: 用 admin 用户登录 ASMI ,选 System Service Aids => Partition Dump => 选 Partition Dump
a) 没有逻辑分区的机器: 直接按控制面板的 reset 按钮。
b) 有逻辑分区的机器: 在 HMC 图形界面上选中需要做 DUMP 的分区 => 在菜单栏选 Selected => Operating System Reset => 选 soft reset 后按 yes
5.9076:**
a) 用 spmon 命令: # spmon -reset node
b) 用 SP PERSPECTIVES 管理界面做 DUMP :
用命令 /usr/lpp/ssp/bin/perspectives& 启动 Perspectives => 双击 Launch Pad 中的 "Hardware Perspectives" 图标 => 选择要做 DUMP 的节点 => 在 title bar 中选 Actions => 选 Power Off, Reset or Shutdown => 选 Reset 然后按 Apply
注意:**
主机(或分区)在做DUMP时控制面板(或HMC)会显示代码0C9或0C2,这个过程可能需要几分钟到几十分钟不等。通常内存越大的机器(或分区)做DUMP的时间越长,没有设DUMP压缩的比有压缩的时间要长。请耐心等待,DUMP完成后会显示代码0C0。只有等0C0显示后才可以重启机器,否则会导致DUMP数据的丢失!**
DUMP数据的收集
仅提供 DUMP 文件、或 DUMP 磁带是不足以分析问题的。正确的方法是用“ snap-r;snap –gfkDc ”命令打包,如果 DUMP 文件已拷到磁带,则 snap 命令会提示插入磁带。打包完成后把 /tmp/ibmsupt 目录下的 snap.pax.Z 或 snap.tar.Z 文件上传到 testcase.boulder.ibm.com 的 aix/toibm/ 目录,文件名为 pmh#.b000.c672.pax.Z
如果 /tmp 文件系统没有足够空间,则可以用在运行 snap 时用 -d 参数指定其他目录。
在SAN环境下,如果客户有用Concurrent VG则不建议在生产时运行snap –a,这样有可能会使共享的SAN磁盘被锁定从而导致数据访问中断!**
收起