互联网服务 Power服务器Oracleaix 5.3

oracle RAC 节点频繁重启

1.操作系统5.3.0.0
2.数据库版本:Release 10.2.0.4.0
3.两个节点。使用ASM管理。
4.网络配置
[rcy55a02][oracle][/home/oracle]#oifcfg getif            
en0  182.1.1.0  global  cluster_interconnect
en2  10.18.71.0  global  public
[rcy55a02][oracle][/home/oracle]# crsctl get css misscount
300

5.故障现象

[rcy55a01][root][/home/mxin/mon/log]#errpt   
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
A6DF45AA   0614022213 I O RMCdaemon      The daemon is started.
EC0BCCD4   0614022213 T H ent1           ETHERNET DOWN
2BFA76F6   0614022013 T S SYSPROC        SYSTEM SHUTDOWN BY USER
9DBCFDEE   0614022213 T O errdemon       ERROR LOGGING TURNED ON

---另一节点

[rcy55a02][oracle][/home/oracle]#errpt
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
F3931284   0614022413 I H ent3           ETHERNET NETWORK RECOVERY MODE
F3931284   0614022413 I H ent0           ETHERNET NETWORK RECOVERY MODE
EC0BCCD4   0614022413 T H ent3           ETHERNET DOWN
EC0BCCD4   0614022413 T H ent0           ETHERNET DOWN
F3931284   0614022213 I H ent0           ETHERNET NETWORK RECOVERY MODE
F3931284   0614022213 I H ent3           ETHERNET NETWORK RECOVERY MODE
EC0BCCD4   0614022213 T H ent0           ETHERNET DOWN
F3931284   0614022213 I H ent0           ETHERNET NETWORK RECOVERY MODE
EC0BCCD4   0614022213 T H ent0           ETHERNET DOWN
F3931284   0614022213 I H ent0           ETHERNET NETWORK RECOVERY MODE
EC0BCCD4   0614022213 T H ent0           ETHERNET DOWN
F3931284   0614022213 I H ent0           ETHERNET NETWORK RECOVERY MODE
EC0BCCD4   0614022213 T H ent0           ETHERNET DOWN
F3931284   0614022213 I H ent0           ETHERNET NETWORK RECOVERY MODE
EC0BCCD4   0614022213 T H ent3           ETHERNET DOWN
EC0BCCD4   0614022213 T H ent0           ETHERNET DOWN


网络查过,网络的人说没问题。

每周都会发生。
参与26

25 同行回答

kanter2008 kanter2008 系统工程师 上海***
保证心跳稳定就对了,还可以设置高超时时间这类参数,太敏感容易有问题。多找找发生的规律吧,也许跟备份时产生IO有关,只是推测。剩下的就看运气了。显示全部
保证心跳稳定就对了,还可以设置高超时时间这类参数,太敏感容易有问题。
多找找发生的规律吧,也许跟备份时产生IO有关,只是推测。
剩下的就看运气了。 收起
互联网服务 · 2014-09-18
浏览2494
kanter2008 kanter2008 系统工程师 上海***
我把这垃圾系统,改了心跳参数。试过改交换机做心跳。也没有好。工作调整,这系统给别人了也TMD好了。我日。尽人事,还得要考天命啊。显示全部
我把这垃圾系统,改了心跳参数。试过改交换机做心跳。也没有好。
工作调整,这系统给别人了也TMD好了。
我日。
尽人事,还得要考天命啊。 收起
互联网服务 · 2014-08-07
浏览2448
hanbing hanbing 软件开发工程师 lgcns
找赛门铁克解决啊,nbu的bug吧显示全部
找赛门铁克解决啊,nbu的bug吧 收起
互联网服务 · 2013-06-18
浏览2505
fhqjgd fhqjgd 系统工程师 江苏巨鸿
回复  fhqjgd 我当时是个NBU里的一个RMAN作业造成的。在allocate 语句分配通道时 加rate = 5M 这个速度限 ...kanter2008 发表于 2013-6-17 15:55      谢谢,我试试看。显示全部
回复  fhqjgd

我当时是个NBU里的一个RMAN作业造成的。在allocate 语句分配通道时 加rate = 5M 这个速度限 ...
kanter2008 发表于 2013-6-17 15:55



     谢谢,我试试看。 收起
互联网服务 · 2013-06-17
浏览2598
kanter2008 kanter2008 系统工程师 上海***
回复 18# fhqjgd 我当时是个NBU里的一个RMAN作业造成的。在allocate 语句分配通道时 加rate = 5M 这个速度限制。资源占用下来了就好了。你根据你自己情况吧。其实这种有规律的故障还好些,就平那些没规律的故障啊。...显示全部
回复 18# fhqjgd

我当时是个NBU里的一个RMAN作业造成的。在allocate 语句分配通道时 加rate = 5M 这个速度限制。资源占用下来了就好了。你根据你自己情况吧。其实这种有规律的故障还好些,就平那些没规律的故障啊。 收起
互联网服务 · 2013-06-17
浏览2586
fhqjgd fhqjgd 系统工程师 江苏巨鸿
回复  fhqjgd 对于你的现象,我感觉很可能是NBU引起的。 我就遇到过RMAN备份太占资源导致问题。建议你再 ...kanter2008 发表于 2013-6-17 10:52   那怎么办?不备份了?  而且我是晚上21:00开始备份那时候没人用。备份是正常的也没有报错。出现...显示全部
回复  fhqjgd

对于你的现象,我感觉很可能是NBU引起的。 我就遇到过RMAN备份太占资源导致问题。
建议你再 ...
kanter2008 发表于 2013-6-17 10:52



  那怎么办?不备份了?  而且我是晚上21:00开始备份那时候没人用。备份是正常的也没有报错。出现问题是在晚上1点早上10点左右,每天都会间歇性出现几次。 收起
互联网服务 · 2013-06-17
浏览2573
kanter2008 kanter2008 系统工程师 上海***
回复 14# fhqjgd 对于你的现象,我感觉很可能是NBU引起的。 我就遇到过RMAN备份太占资源导致问题。建议你再查查看。我当时因为RMAN不限制,引起SQLPLUS 连接都要延迟10秒,影响了应用。显示全部
回复 14# fhqjgd

对于你的现象,我感觉很可能是NBU引起的。 我就遇到过RMAN备份太占资源导致问题。
建议你再查查看。
我当时因为RMAN不限制,引起SQLPLUS 连接都要延迟10秒,影响了应用。 收起
互联网服务 · 2013-06-17
浏览2522
kanter2008 kanter2008 系统工程师 上海***
我一直把注意集中在了心跳上,但是看来还是有其他因素的。下面两个主机的报错请大家看下。可能是因为定时作业的 exp作业:我1年前维护时时无规律的宕机,当时处理心跳解决了。现在刚接手,听说近俩月又开始频繁重启了。贴日志给大家:节点1:[rcy55a01][root][/oraexp]#errptIDENTIF...显示全部
我一直把注意集中在了心跳上,但是看来还是有其他因素的。下面两个主机的报错请大家看下。可能是因为定时作业的 exp作业:

我1年前维护时时无规律的宕机,当时处理心跳解决了。现在刚接手,听说近俩月又开始频繁重启了。贴日志给大家:
节点1:
[rcy55a01][root][/oraexp]#errpt
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
A6DF45AA   0616022013 I O RMCdaemon      The daemon is started.
2BFA76F6   0616021813 T S SYSPROC        SYSTEM SHUTDOWN BY USER
9DBCFDEE   0616021913 T O errdemon       ERROR LOGGING TURNED ON
EC0BCCD4   0614151113 T H ent1           ETHERNET DOWN
F3931284   0614150913 I H ent1           ETHERNET NETWORK RECOVERY MODE
F3931284   0614150713 I H ent3           ETHERNET NETWORK RECOVERY MODE
EC0BCCD4   0614150713 T H ent3           ETHERNET DOWN
EC0BCCD4   0614145713 T H ent1           ETHERNET DOWN
F3931284   0614145713 I H ent1           ETHERNET NETWORK RECOVERY MODE
EC0BCCD4   0614145713 T H ent1           ETHERNET DOWN
F3931284   0614145613 I H ent1           ETHERNET NETWORK RECOVERY MODE
EC0BCCD4   0614145413 T H ent1           ETHERNET DOWN
F3931284   0614145413 I H ent1           ETHERNET NETWORK RECOVERY MODE
EC0BCCD4   0614145413 T H ent1           ETHERNET DOWN
F3931284   0614145313 I H ent1           ETHERNET NETWORK RECOVERY MODE
EC0BCCD4   0614145213 T H ent1           ETHERNET DOWN
F3931284   0614145213 I H ent1           ETHERNET NETWORK RECOVERY MODE
EC0BCCD4   0614145213 T H ent1           ETHERNET DOWN
F3931284   0614145113 I H ent1           ETHERNET NETWORK RECOVERY MODE
F3931284   0614144913 I H ent3           ETHERNET NETWORK RECOVERY MODE
EC0BCCD4   0614144813 T H ent3           ETHERNET DOWN
A6DF45AA   0614022213 I O RMCdaemon      The daemon is started.
EC0BCCD4   0614022213 T H ent1           ETHERNET DOWN
2BFA76F6   0614022013 T S SYSPROC        SYSTEM SHUTDOWN BY USER
9DBCFDEE   0614022213 T O errdemon       ERROR LOGGING TURNED ON
节点2:
[rcy55a02][root][/]#errpt
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
F3931284   0616021913 I H ent0           ETHERNET NETWORK RECOVERY MODE
EC0BCCD4   0616021913 T H ent0           ETHERNET DOWN
F3931284   0616021713 I H ent0           ETHERNET NETWORK RECOVERY MODE
EC0BCCD4   0616021713 T H ent0           ETHERNET DOWN
F3931284   0616021713 I H ent0           ETHERNET NETWORK RECOVERY MODE
EC0BCCD4   0616021713 T H ent0           ETHERNET DOWN
F3931284   0616021713 I H ent0           ETHERNET NETWORK RECOVERY MODE
EC0BCCD4   0616021713 T H ent0           ETHERNET DOWN
F3931284   0616021713 I H ent0           ETHERNET NETWORK RECOVERY MODE
EC0BCCD4   0616021713 T H ent0           ETHERNET DOWN
F3931284   0616021713 I H ent0           ETHERNET NETWORK RECOVERY MODE
EC0BCCD4   0616021713 T H ent0           ETHERNET DOWN
F3931284   0614150713 I H ent3           ETHERNET NETWORK RECOVERY MODE
EC0BCCD4   0614150713 T H ent3           ETHERNET DOWN
F3931284   0614144913 I H ent3           ETHERNET NETWORK RECOVERY MODE
EC0BCCD4   0614144813 T H ent3           ETHERNET DOWN
F3931284   0614022413 I H ent3           ETHERNET NETWORK RECOVERY MODE
F3931284   0614022413 I H ent0           ETHERNET NETWORK RECOVERY MODE
EC0BCCD4   0614022413 T H ent3           ETHERNET DOWN
EC0BCCD4   0614022413 T H ent0           ETHERNET DOWN
F3931284   0614022213 I H ent0           ETHERNET NETWORK RECOVERY MODE
F3931284   0614022213 I H ent3           ETHERNET NETWORK RECOVERY MODE
EC0BCCD4   0614022213 T H ent0           ETHERNET DOWN
F3931284   0614022213 I H ent0           ETHERNET NETWORK RECOVERY MODE
EC0BCCD4   0614022213 T H ent0           ETHERNET DOWN
F3931284   0614022213 I H ent0           ETHERNET NETWORK RECOVERY MODE
EC0BCCD4   0614022213 T H ent0           ETHERNET DOWN
F3931284   0614022213 I H ent0           ETHERNET NETWORK RECOVERY MODE
EC0BCCD4   0614022213 T H ent0           ETHERNET DOWN
F3931284   0614022213 I H ent0           ETHERNET NETWORK RECOVERY MODE
EC0BCCD4   0614022213 T H ent3           ETHERNET DOWN
EC0BCCD4   0614022213 T H ent0           ETHERNET DOWN


上面2点以后有个定时作业,是ORACLE的EXP,然后GZIP。宕机时正是在GZIP。定时作业只周一,周五。周日做。正好有宕机。

刚重新维护这系统,再观察下吧。我把定时作业的GZIP去掉了。观察下吧。希望能够解决问题。

另外实在不行,我考虑通过交换机来做心跳,不知道效果会不会好。 收起
互联网服务 · 2013-06-17
浏览1243
heroesray heroesray 软件开发工程师 北京华宇软件股份有限公司
网卡多的话,做个etherchannel,这样不会因为单个网卡失效导致节点重启。而且rac心跳的cache fusion对网络带宽和延迟要求还是挺高的,有条件尽量做下聚合。显示全部
网卡多的话,做个etherchannel,这样不会因为单个网卡失效导致节点重启。而且rac心跳的cache fusion对网络带宽和延迟要求还是挺高的,有条件尽量做下聚合。 收起
互联网服务 · 2013-06-17
浏览1255
fhqjgd fhqjgd 系统工程师 江苏巨鸿
遇见同样的问题,但客户说是在NBU备份后才出现的,客户用的是AIX 6.1 10G RAC 裸设备。开始怀疑是备份太占资源了,现在看来不一定是,因为备份输出的日志并没有报错。显示全部
遇见同样的问题,但客户说是在NBU备份后才出现的,客户用的是AIX 6.1 10G RAC 裸设备。开始怀疑是备份太占资源了,现在看来不一定是,因为备份输出的日志并没有报错。 收起
互联网服务 · 2013-06-15
浏览1233

提问者

kanter2008
系统工程师 上海***
擅长领域: 服务器AIXUnix
评论239

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2013-06-14
  • 关注会员:1 人
  • 问题浏览:19585
  • 最近回答:2014-09-18
  • X社区推广