Power HA 其中一台异常宕机

两台机器用的POWER VM虚拟化,同时安装power ha软件。

一台机器跑DB2,一台机器跑SAP

昨天SAP的机器异常,通过HMC看是“未激活”状态,重新激活profile,查看errpt日志如下:

2.png


1.png

请大家帮我分析一下问题原因,此现象不止出现过一次。但并不频繁,大概一年一次,但想知道问题所在。

如果需要具体的报错详细,可以把前面的代码说一下,我把详细内容发上来

参与96
  • 遇到过一样的问题,三套系统,一样的报错,当时两套出现时已经怀疑到问题的原因的,因为另一套不大重要,所以就故意等它复现,果然验证了自己的想法。 原因就是RSCT NODE ID主备机一致,是否备机的操作系统是被克隆过去的,忘记带清理原操作系统信息的参数吧。alt_disk_copy命令忘记带-C -B -O参数。 问题不大,只要重置一下rsct node id,重启下系统,重新同步下即解决问题。
    2017-01-20

14 同行回答

zwz99999 zwz99999 系统工程师 dcits
可以提供下你的系统版本,ha版本和hmc版本吗?最好能有详细的log,errpt -a。cluster.log显示全部

可以提供下你的系统版本,ha版本和hmc版本吗?最好能有详细的log,errpt -a。cluster.log

收起
系统集成 · 2017-01-18
浏览8526
yangming27 yangming27 系统运维工程师 兖矿集团
系统集成 · 2017-01-18
浏览7817
yangming27 yangming27 系统运维工程师 兖矿集团
# lsvg -l sppcivgsppcivg:LV NAME             TYPE       LPs     PPs     PVs  LV STATE      MOUNT POINTSPPextrans  &...显示全部

# lsvg -l sppcivg

sppcivg:

LV NAME             TYPE       LPs     PPs     PVs  LV STATE      MOUNT POINT

SPPextrans          jfs2       30      30      1    open/syncd    /export/usr/sap/trans

SPPexsapmnt         jfs2       20      20      1    open/syncd    /export/sapmnt/SPP

SPPSCS              jfs2       10      10      1    open/syncd    /usr/sap/SPP/SCS00

loglv01             jfs2log    1       1       1    open/syncd    N/A

# lsvg -l caavg_private;

caavg_private:

LV NAME             TYPE       LPs     PPs     PVs  LV STATE      MOUNT POINT

caalv_private1      boot       1       1       1    closed/syncd  N/A

caalv_private2      boot       1       1       1    closed/syncd  N/A

caalv_private3                 4       4       1    open/syncd    N/A

powerha_crlv        boot       1       1       1    closed/syncd  N/A

收起
系统集成 · 2017-01-18
浏览7929
zwz99999 zwz99999 系统工程师 dcits
你贴的是hacmp.out吧显示全部

你贴的是hacmp.out吧

收起
系统集成 · 2017-01-18
浏览8122
bennym bennym 系统工程师 天津TTL
另外既然是同一人部署的,那么操作系统版本和HA版本是否一样,如果不一样就更要从配置方面看看了显示全部

另外既然是同一人部署的,那么操作系统版本和HA版本是否一样,如果不一样就更要从配置方面看看了

收起
系统集成 · 2017-01-19
浏览7976
  • 同一人同一时间部署,操作系统和HA版本一致,当时部署了三套,其中两套出现了这个问题。
    2017-01-19
  • bennym  bennym
    配置贴出来看看吧,先从简单的入手,毕竟不是总出问题
    2017-01-19
bennym bennym 系统工程师 天津TTL
方便的话贴一下hosts文件和HA配置看一下,先从这方面看看,毕竟生产环境打补丁不是小事!显示全部

方便的话贴一下hosts文件和HA配置看一下,先从这方面看看,毕竟生产环境打补丁不是小事!

收起
系统集成 · 2017-01-19
浏览8013
zwz99999 zwz99999 系统工程师 dcits
估计你遇见可能是RSCT的BUG,需要打补丁了显示全部

估计你遇见可能是RSCT的BUG,需要打补丁了

收起
系统集成 · 2017-01-18
浏览8062
yangming27 yangming27 系统运维工程师 兖矿集团
Jan 17 12:26:12 ykportal02 daemon:err|error last message repeated 11 timesJan 17 12:26:18 ykportal02 daemon:err|error snmpd[3145842]: EXCEPTIONS: authentication error: invalid community name: publicJan 17 12:26:19 ykportal02 daemon:notice StorageRM[2...显示全部

Jan 17 12:26:12 ykportal02 daemon:err|error last message repeated 11 times

Jan 17 12:26:18 ykportal02 daemon:err|error snmpd[3145842]: EXCEPTIONS: authentication error: invalid community name: public

Jan 17 12:26:19 ykportal02 daemon:notice StorageRM[2818162]: (Recorded using libct_ffdc.a cv 2):::Error ID: :::Reference ID:  :::Template ID: a8576c0d:::Details File:  :::Location: RSCT,StorageRMDaemon.C,1.63,361               :::STORAGERM_STOPPED_ST IBM.StorageRM daemon has been stopped.

Jan 17 12:26:23 ykportal02 daemon:err|error snmpd[3145842]: EXCEPTIONS: authentication error: invalid community name: public

Jan 17 12:26:24 ykportal02 daemon:notice cthags[2229060]: (Recorded using libct_ffdc.a cv 2):::Error ID: 6/uIVc.knNTM/Ara0bgJD8....................:::Reference ID:  :::Template ID: 28854e81:::Details File:  :::Location: RSCT,SRCSocket.C,1.91,424                     :::GS_STOP_ST Group Services daemon stopped DIAGNOSTIC EXPLANATION Exiting for STOP NORMAL request from SRC.

Jan 17 12:26:24 ykportal02 local0:crit clstrmgrES[2949508]: Tue Jan 17 12:26:24 announcementCb: Called, state=ST_STABLE, provider token 1

Jan 17 12:26:24 ykportal02 local0:crit clstrmgrES[2949508]: Tue Jan 17 12:26:24 announcementCb: GsToken 3, AdapterToken -1, rm_GsToken 1

Jan 17 12:26:24 ykportal02 local0:crit clstrmgrES[2949508]: Tue Jan 17 12:26:24 announcementCb: GRPSVCS announcment code=512; exiting

Jan 17 12:26:24 ykportal02 local0:crit clstrmgrES[2949508]: Tue Jan 17 12:26:24  CHECK FOR FAILURE OF RSCT SUBSYSTEMS (cthags)

Jan 17 12:26:24 ykportal02 daemon:notice snmpd[3145842]: NOTICE: lost peer (SMUX ::1+32807+4)

Jan 17 12:26:25 ykportal02 daemon:notice ConfigRM[2622318]: (Recorded using libct_ffdc.a cv 2):::Error ID: :::Reference ID:  :::Template ID: 2625c573:::Details File:  :::Location: RSCT,PeerDomain.C,1.99.22.155,24966           :::CONFIGRM_OFFLINE_ST The node is offline.

Jan 17 12:26:25 ykportal02 user:notice PowerHA SystemMirror for AIX: clexit.rc : Unexpected termination of clstrmgrES.

Jan 17 12:26:25 ykportal02 user:notice PowerHA SystemMirror for AIX: clexit.rc : Halting system immediately!!!

Jan 17 15:47:25 ykportal02 daemon:notice snmpd[1507824]: NOTICE: logging started at level 0

Jan 17 15:47:26 ykportal02 daemon:notice snmpd[1507824]: NOTICE: snmpd (1507824) is starting

Jan 17 15:47:27 ykportal02 daemon:notice snmpd[1507824]: NOTICE: stopsrc issued

Jan 17 15:47:27 ykportal02 daemon:notice snmpd[1507824]: NOTICE: snmpd (1507824) is terminating

收起
系统集成 · 2017-01-18
浏览8650
地下工作者 地下工作者 系统工程师 神码
您好,这个问题解决了么,最后分析结果是什么?显示全部

您好,这个问题解决了么,最后分析结果是什么?

收起
系统集成 · 2020-07-01
浏览981
laopeng3 laopeng3 项目经理 IT
建议把ha补丁打了,如果可以的话把db2的小版本也升级一下,这种故障,最终分析出来都是由于版本bug等问题,导致内存溢出,磁盘被锁等问题显示全部

建议把ha补丁打了,如果可以的话把db2的小版本也升级一下,这种故障,最终分析出来都是由于版本bug等问题,导致内存溢出,磁盘被锁等问题

收起
系统集成 · 2018-12-04
浏览1427

提问者

yangming27
yangming27 0 0 1
系统运维工程师 兖矿集团
擅长领域: 系统管理服务器存储
评论230

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2017-01-18
  • 关注会员:8 人
  • 问题浏览:21153
  • 最近回答:2020-07-01
  • X社区推广