IT分销/经销故障诊断

aix6.1+ha5.5+rac宕机报错内存分配失败

用户生产环境,小机是p720,11月4日和30日晚上两台小机自动关机,出错信息如下:
# uname -a
AIX mesrac2 1 6 00F756C54C00
# oslevel -r
6100-07
# lsattr -El mem0
ent_mem_cap          I/O memory entitlement in Kbytes           False
goodsize       15552 Amount of usable physical memory in Mbytes False
mem_exp_factor       Memory expansion factor                    False
size           15552 Total amount of physical memory in Mbytes  False
var_mem_weight       Variable memory capacity weight            False
# lsps -s
Total Paging Space   Percent Used
      16384MB               1%
# lslpp -l |grep cluster
  bos.cluster.rte            6.1.7.0  COMMITTED  Cluster Aware AIX
  bos.cluster.solid          6.1.7.0  COMMITTED  POWER HA Business Resiliency
  cluster.adt.es.client.include
  cluster.adt.es.client.samples.clinfo
  cluster.adt.es.client.samples.clstat
  cluster.adt.es.client.samples.libcl
  cluster.adt.es.java.demo.monitor
  cluster.doc.en_US.es.html  5.5.0.1  COMMITTED  HAES Web-based HTML
  cluster.doc.en_US.es.pdf   5.5.0.0  COMMITTED  HAES PDF Documentation - U.S.
  cluster.es.cfs.rte         5.5.0.3  COMMITTED  ES Cluster File System Support
  cluster.es.client.clcomd   5.5.0.3  COMMITTED  ES Cluster Communication
  cluster.es.client.lib      5.5.0.3  COMMITTED  ES Client Libraries
  cluster.es.client.rte      5.5.0.3  COMMITTED  ES Client Runtime
  cluster.es.client.utils    5.5.0.3  COMMITTED  ES Client Utilities
  cluster.es.client.wsm      5.5.0.3  COMMITTED  Web based Smit
  cluster.es.cspoc.cmds      5.5.0.4  COMMITTED  ES CSPOC Commands
  cluster.es.cspoc.dsh       5.5.0.0  COMMITTED  ES CSPOC dsh
  cluster.es.cspoc.rte       5.5.0.3  COMMITTED  ES CSPOC Runtime Commands
  cluster.es.nfs.rte         5.5.0.0  COMMITTED  ES NFS Support
  cluster.es.plugins.dhcp    5.5.0.1  COMMITTED  ES Plugins - dhcp
  cluster.es.plugins.dns     5.5.0.1  COMMITTED  ES Plugins - Name Server
  cluster.es.plugins.printserver
  cluster.es.server.cfgast   5.5.0.0  COMMITTED  ES Two-Node Configuration
  cluster.es.server.diag     5.5.0.3  COMMITTED  ES Server Diags
  cluster.es.server.events   5.5.0.4  COMMITTED  ES Server Events
  cluster.es.server.rte      5.5.0.4  COMMITTED  ES Base Server Runtime
  cluster.es.server.simulator
  cluster.es.server.testtool
  cluster.es.server.utils    5.5.0.4  COMMITTED  ES Server Utilities
  cluster.license            5.5.0.0  COMMITTED  HACMP Electronic License
  cluster.msg.en_US.cspoc    5.5.0.0  COMMITTED  HACMP CSPOC Messages - U.S.
  cluster.msg.en_US.es.client
  cluster.msg.en_US.es.server
  mcr.rte                    6.1.7.0  COMMITTED  Metacluster Checkpoint and
  bos.cluster.rte            6.1.7.0  COMMITTED  Cluster Aware AIX
  bos.cluster.solid          6.1.7.0  COMMITTED  POWER HA Business Resiliency
  cluster.es.client.clcomd   5.5.0.3  COMMITTED  ES Cluster Communication
  cluster.es.client.lib      5.5.0.3  COMMITTED  ES Client Libraries
  cluster.es.client.rte      5.5.0.3  COMMITTED  ES Client Runtime
  cluster.es.client.wsm      5.5.0.0  COMMITTED  Web based Smit
  cluster.es.cspoc.rte       5.5.0.0  COMMITTED  ES CSPOC Runtime Commands
  cluster.es.nfs.rte         5.5.0.0  COMMITTED  ES NFS Support
  cluster.es.server.diag     5.5.0.0  COMMITTED  ES Server Diags
  cluster.es.server.events   5.5.0.0  COMMITTED  ES Server Events
  cluster.es.server.rte      5.5.0.4  COMMITTED  ES Base Server Runtime
  cluster.es.server.simulator
  cluster.es.server.utils    5.5.0.4  COMMITTED  ES Server Utilities
  mcr.rte                    6.1.7.0  COMMITTED  Metacluster Checkpoint and
#errpt |more
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
AFA89905   1201100612 I O grpsvcs        Group Services daemon started
97419D60   1201100612 I O topsvcs        Topology Services daemon started
A6DF45AA   1201085712 I O RMCdaemon      The daemon is started.
F3931284   1201085612 I H ent0           ETHERNET NETWORK RECOVERY MODE
EC0BCCD4   1201085612 T H ent0           ETHERNET DOWN
2BFA76F6   1201085412 T S SYSPROC        SYSTEM SHUTDOWN BY USER
9DBCFDEE   1201085712 T O errdemon       ERROR LOGGING TURNED ON
FE2DEE00   1130223212 P S SYSXAIXIF      DUPLICATE IP ADDRESS DETECTED IN THE NET
A924A5FC   1130223212 P S SYSPROC        SOFTWARE PROGRAM ABNORMALLY TERMINATED
6D19271E   1130223212 I O topsvcs        Topology Services daemon stopped
AA8AB241   1130223212 T O OPERATOR       OPERATOR NOTIFICATION
4B219AEA   1130223212 P U LIBLVM         Concurrent LVM daemon forced Volume Grou
CAD234BE   1130223212 U H LVDD           QUORUM LOST, VOLUME GROUP CLOSING
CAD234BE   1130223212 U H LVDD           QUORUM LOST, VOLUME GROUP CLOSING
4B219AEA   1130223212 P U LIBLVM         Concurrent LVM daemon forced Volume Grou
9BD08D55   1130223212 I U LIBLVM         Unable to start gsclvmd
BC3BE5A3   1130223212 P S SRC            SOFTWARE PROGRAM ERROR
CAD234BE   1130223212 U H LVDD           QUORUM LOST, VOLUME GROUP CLOSING
4B219AEA   1130223212 P U LIBLVM         Concurrent LVM daemon forced Volume Grou
9BD08D55   1130223212 I U LIBLVM         Unable to start gsclvmd
BC3BE5A3   1130223212 P S SRC            SOFTWARE PROGRAM ERROR
AEA055D0   1130223212 I S livedump       Live dump complete
CAD234BE   1130223212 U H LVDD           QUORUM LOST, VOLUME GROUP CLOSING
DB14100E   1130223212 P U LIBLVM         Group Services detected a failure
CB4A951F   1130223212 I S SRC            SOFTWARE PROGRAM ERROR
12081DC6   1130223212 P S haemd          SOFTWARE PROGRAM ERROR
A924A5FC   1130223212 P S SYSPROC        SOFTWARE PROGRAM ABNORMALLY TERMINATED
463A893D   1130223012 P O grpsvcs        Internal logic error in Group Services d
#errpt -aj 463A893D |more
LABEL:          GS_ERROR_ER
IDENTIFIER:     463A893D
Date/Time:       Fri Nov 30 22:30:47 GMT+08:00 2012
Sequence Number: 224
Machine Id:      00F756C54C00
Node Id:         mesrac2
Class:           O
Type:            PERM
WPAR:            Global
Resource Name:   grpsvcs         
Description
Internal logic error in Group Services daemon
Probable Causes
An internal logic failure occurs in daemon
Unexpected program failure
Failure Causes
Unrecoverable logic failure in daemon
        Recommended Actions
        Verify that Group Services daemon is still running
Verify that Group Services daemon has been restarted
Call IBM Service if problem persists
Detail Data
DETECTING MODULE
RSCT,pgsd.C,1.62.1.23,238                     
ERROR ID
6xYcC4/LAAiE/M3e.K5.e.1...................
REFERENCE CODE
                                          
DIAGNOSTIC EXPLANATION
Memory allocation failed. Please check the memory availability.
上面是第2个节点的出错信息,第1节点除了463A893D这个错误没有,其它的跟上面一样。还有11月4日出错的信息,463A893D这个出错信息在第1个节点上,什么原因请各位指导。
参与10

9同行回答

routerstprouterstp系统工程师山西捭阖科技有限公司
嗯,没查出原因,720重装做成应用服务器了,然后用两台570做rac了,存储用原先的,运行正常。显示全部
嗯,没查出原因,720重装做成应用服务器了,然后用两台570做rac了,存储用原先的,运行正常。收起
IT分销/经销 · 2013-10-17
浏览2758
abit2007abit2007系统工程师代维
回复下,表示我关注过此帖,坐等楼主来结帖。显示全部
回复下,表示我关注过此帖,坐等楼主来结帖。收起
互联网服务 · 2013-10-16
浏览2737
xayjgsxayjgs系统运维工程师陕西北佳公司
支持一下了显示全部
支持一下了收起
系统集成 · 2013-09-27
浏览2804
abit2007abit2007系统工程师代维
跟limits参数没有关系,建议检查下:FE2DEE00   1130223212 P S SYSXAIXIF      DUPLICATE IP ADDRESS DETECTED IN THE NETCAD234BE   1130223212 U H LVDD           QUORUM LOST, VOLUM...显示全部
跟limits参数没有关系,建议检查下:
FE2DEE00   1130223212 P S SYSXAIXIF      DUPLICATE IP ADDRESS DETECTED IN THE NET
CAD234BE   1130223212 U H LVDD           QUORUM LOST, VOLUME GROUP CLOSING
每二个导致系统宕机的可能很大,如果连接存储,可以检查下存储是否有断过。收起
互联网服务 · 2013-09-25
浏览2933
yuanyou2012yuanyou2012系统工程师太极华青
root的什么limits参数,我把所有的都改成-1,行吗,这边的都改成-1,这种故障还是发生啦!你这种现象到目前都没有发生吗?我这边刚好遇到了一样故障。显示全部
root的什么limits参数,我把所有的都改成-1,行吗,这边的都改成-1,这种故障还是发生啦!你这种现象到目前都没有发生吗?
我这边刚好遇到了一样故障。收起
互联网服务 · 2013-09-09
浏览2683
routerstprouterstp系统工程师山西捭阖科技有限公司
问题解决了,以前工程师安装的时候一个节点root的limits参数没改,晕死。。显示全部
问题解决了,以前工程师安装的时候一个节点root的limits参数没改,晕死。。收起
IT分销/经销 · 2012-12-06
浏览2783
routerstprouterstp系统工程师山西捭阖科技有限公司
LS可否说清楚点?720有一批是有bug的吗?谢谢。显示全部
LS可否说清楚点?720有一批是有bug的吗?谢谢。收起
IT分销/经销 · 2012-12-03
浏览2753
tuzi8351tuzi8351软件开发工程师天津
不会是有bug的那批吧显示全部
不会是有bug的那批吧收起
政府机关 · 2012-12-03
浏览2747
yuyuluyuyulu系统工程师自由职业
从日志中可以看到发生宕机的时间是1201085412,而之前没有明显的错误。在30号22点32分发生 QUORUM LOST, VOLUME GROUP CLOSING,VG QUORUM丢失,VG强制offline。其它没发现异常。可从CRS日志排查是否有异常造成系统重启。...显示全部
从日志中可以看到发生宕机的时间是1201085412,而之前没有明显的错误。在30号22点32分发生 QUORUM LOST, VOLUME GROUP CLOSING,VG QUORUM丢失,VG强制offline。其它没发现异常。可从CRS日志排查是否有异常造成系统重启。收起
系统集成 · 2012-12-03
浏览2673

提问者

routerstp
系统工程师山西捭阖科技有限公司
擅长领域: 服务器灾备云计算

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2012-12-03
  • 关注会员:1 人
  • 问题浏览:12520
  • 最近回答:2013-10-17
  • X社区推广