Power HA 其中一台异常宕机

两台机器用的POWER VM虚拟化,同时安装power ha软件。

一台机器跑DB2,一台机器跑SAP

昨天SAP的机器异常,通过HMC看是“未激活”状态,重新激活profile,查看errpt日志如下:

2.png


1.png

请大家帮我分析一下问题原因,此现象不止出现过一次。但并不频繁,大概一年一次,但想知道问题所在。

如果需要具体的报错详细,可以把前面的代码说一下,我把详细内容发上来

参与96
  • 遇到过一样的问题,三套系统,一样的报错,当时两套出现时已经怀疑到问题的原因的,因为另一套不大重要,所以就故意等它复现,果然验证了自己的想法。 原因就是RSCT NODE ID主备机一致,是否备机的操作系统是被克隆过去的,忘记带清理原操作系统信息的参数吧。alt_disk_copy命令忘记带-C -B -O参数。 问题不大,只要重置一下rsct node id,重启下系统,重新同步下即解决问题。
    2017-01-20

14同行回答

zwz99999zwz99999系统工程师dcits
可以提供下你的系统版本,ha版本和hmc版本吗?最好能有详细的log,errpt -a。cluster.log显示全部

可以提供下你的系统版本,ha版本和hmc版本吗?最好能有详细的log,errpt -a。cluster.log

收起
系统集成 · 2017-01-18
浏览8354
yangming27yangming27系统运维工程师兖矿集团
浏览7654
yangming27yangming27系统运维工程师兖矿集团
# lsvg -l sppcivgsppcivg:LV NAME             TYPE       LPs     PPs     PVs  LV STATE      MOUNT POINTSPPextrans  &...显示全部

# lsvg -l sppcivg

sppcivg:

LV NAME             TYPE       LPs     PPs     PVs  LV STATE      MOUNT POINT

SPPextrans          jfs2       30      30      1    open/syncd    /export/usr/sap/trans

SPPexsapmnt         jfs2       20      20      1    open/syncd    /export/sapmnt/SPP

SPPSCS              jfs2       10      10      1    open/syncd    /usr/sap/SPP/SCS00

loglv01             jfs2log    1       1       1    open/syncd    N/A

# lsvg -l caavg_private;

caavg_private:

LV NAME             TYPE       LPs     PPs     PVs  LV STATE      MOUNT POINT

caalv_private1      boot       1       1       1    closed/syncd  N/A

caalv_private2      boot       1       1       1    closed/syncd  N/A

caalv_private3                 4       4       1    open/syncd    N/A

powerha_crlv        boot       1       1       1    closed/syncd  N/A

收起
系统集成 · 2017-01-18
浏览7767
wangqlwangql系统工程师NULL
我之前处理这种问题的思路是,通过日志实在查不出原因来就先打补丁,两个补丁:1. rsct   这个是通过操作系统的tl或sp来升级的2. powerha:ha软件的补丁一般情况下,打完补丁就ok了,如果不好,最起码也可以排除了bug...显示全部

我之前处理这种问题的思路是,通过日志实在查不出原因来就先打补丁,两个补丁:

1. rsct   这个是通过操作系统的tl或sp来升级的

2. powerha:ha软件的补丁

一般情况下,打完补丁就ok了,如果不好,最起码也可以排除了bug

收起
IT咨询服务 · 2017-01-18
浏览7959
zwz99999zwz99999系统工程师dcits
你贴的是hacmp.out吧显示全部

你贴的是hacmp.out吧

收起
系统集成 · 2017-01-18
浏览7945
myciciymyciciyIT顾问某金融科技公司
你的机器宕机原因在这里1 首先你的ha的版本,6.1?补丁级别?2 你的共享vg是做的LVM镜像?显示全部

你的机器宕机原因在这里

1.jpg

1 首先你的ha的版本,6.1?补丁级别?

2 你的共享vg是做的LVM镜像?

收起
银行 · 2017-01-18
浏览7673
bennymbennym系统工程师天津TTL
另外既然是同一人部署的,那么操作系统版本和HA版本是否一样,如果不一样就更要从配置方面看看了显示全部

另外既然是同一人部署的,那么操作系统版本和HA版本是否一样,如果不一样就更要从配置方面看看了

收起
系统集成 · 2017-01-19
浏览7801
  • 同一人同一时间部署,操作系统和HA版本一致,当时部署了三套,其中两套出现了这个问题。
    2017-01-19
  • 配置贴出来看看吧,先从简单的入手,毕竟不是总出问题
    2017-01-19
bennymbennym系统工程师天津TTL
方便的话贴一下hosts文件和HA配置看一下,先从这方面看看,毕竟生产环境打补丁不是小事!显示全部

方便的话贴一下hosts文件和HA配置看一下,先从这方面看看,毕竟生产环境打补丁不是小事!

收起
系统集成 · 2017-01-19
浏览7838
zwz99999zwz99999系统工程师dcits
估计你遇见可能是RSCT的BUG,需要打补丁了显示全部

估计你遇见可能是RSCT的BUG,需要打补丁了

收起
系统集成 · 2017-01-18
浏览7890
yangming27yangming27系统运维工程师兖矿集团
Jan 17 12:26:12 ykportal02 daemon:err|error last message repeated 11 timesJan 17 12:26:18 ykportal02 daemon:err|error snmpd[3145842]: EXCEPTIONS: authentication error: invalid community name: publicJan 17 12:26:19 ykportal02 daemon:notice StorageRM[2...显示全部

Jan 17 12:26:12 ykportal02 daemon:err|error last message repeated 11 times

Jan 17 12:26:18 ykportal02 daemon:err|error snmpd[3145842]: EXCEPTIONS: authentication error: invalid community name: public

Jan 17 12:26:19 ykportal02 daemon:notice StorageRM[2818162]: (Recorded using libct_ffdc.a cv 2):::Error ID: :::Reference ID:  :::Template ID: a8576c0d:::Details File:  :::Location: RSCT,StorageRMDaemon.C,1.63,361               :::STORAGERM_STOPPED_ST IBM.StorageRM daemon has been stopped.

Jan 17 12:26:23 ykportal02 daemon:err|error snmpd[3145842]: EXCEPTIONS: authentication error: invalid community name: public

Jan 17 12:26:24 ykportal02 daemon:notice cthags[2229060]: (Recorded using libct_ffdc.a cv 2):::Error ID: 6/uIVc.knNTM/Ara0bgJD8....................:::Reference ID:  :::Template ID: 28854e81:::Details File:  :::Location: RSCT,SRCSocket.C,1.91,424                     :::GS_STOP_ST Group Services daemon stopped DIAGNOSTIC EXPLANATION Exiting for STOP NORMAL request from SRC.

Jan 17 12:26:24 ykportal02 local0:crit clstrmgrES[2949508]: Tue Jan 17 12:26:24 announcementCb: Called, state=ST_STABLE, provider token 1

Jan 17 12:26:24 ykportal02 local0:crit clstrmgrES[2949508]: Tue Jan 17 12:26:24 announcementCb: GsToken 3, AdapterToken -1, rm_GsToken 1

Jan 17 12:26:24 ykportal02 local0:crit clstrmgrES[2949508]: Tue Jan 17 12:26:24 announcementCb: GRPSVCS announcment code=512; exiting

Jan 17 12:26:24 ykportal02 local0:crit clstrmgrES[2949508]: Tue Jan 17 12:26:24  CHECK FOR FAILURE OF RSCT SUBSYSTEMS (cthags)

Jan 17 12:26:24 ykportal02 daemon:notice snmpd[3145842]: NOTICE: lost peer (SMUX ::1+32807+4)

Jan 17 12:26:25 ykportal02 daemon:notice ConfigRM[2622318]: (Recorded using libct_ffdc.a cv 2):::Error ID: :::Reference ID:  :::Template ID: 2625c573:::Details File:  :::Location: RSCT,PeerDomain.C,1.99.22.155,24966           :::CONFIGRM_OFFLINE_ST The node is offline.

Jan 17 12:26:25 ykportal02 user:notice PowerHA SystemMirror for AIX: clexit.rc : Unexpected termination of clstrmgrES.

Jan 17 12:26:25 ykportal02 user:notice PowerHA SystemMirror for AIX: clexit.rc : Halting system immediately!!!

Jan 17 15:47:25 ykportal02 daemon:notice snmpd[1507824]: NOTICE: logging started at level 0

Jan 17 15:47:26 ykportal02 daemon:notice snmpd[1507824]: NOTICE: snmpd (1507824) is starting

Jan 17 15:47:27 ykportal02 daemon:notice snmpd[1507824]: NOTICE: stopsrc issued

Jan 17 15:47:27 ykportal02 daemon:notice snmpd[1507824]: NOTICE: snmpd (1507824) is terminating

收起
系统集成 · 2017-01-18
浏览8463

提问者

yangming27
系统运维工程师兖矿集团
擅长领域: 系统管理服务器存储

问题来自

相关问题

相关资料

问题状态

  • 发布时间:2017-01-18
  • 关注会员:8 人
  • 问题浏览:20760
  • 最近回答:2020-07-01
  • X社区推广