互联网服务

RAC 哪个节点先启动HA就哪个节点实例能启动的问题

前面都一直好好的,RAC的两个节点都一切运行正常,可是我出差了一个多月回来检查数据库的时候发现只有一个节点的实例在运行,另一个节点怎么都启动不了,后来将服务器重启了也不行,后来无意中发现哪个节点先启动HA,那个节点就能正常启动所有实例,而后启动的一个实例都启动不了,真怪了。问了下可能操作这台服务器的人,都说没做过什么配置,自我走后就没人动过数据库。
     看了下rac日志,最近都一直报一个错误

2010-10-11 12:17:15.846: [  OCROSD][1]utopen:7:failed to open OCR file/disk /dev/rOCRFile /dev/rOCRFileMirror, errno=6, os err string=No such device or address
2010-10-11 12:17:15.846: [  OCRRAW][1]proprinit: Could not open raw device
2010-10-11 12:17:15.846: [ default][1]a_init:7!: Backend init unsuccessful : [26]
2010-10-11 12:17:15.846: [ CSSCLNT][1]clsssinit: Unable to access OCR device in OCR init.


就是说不能访问OCR,有人碰到过这种奇怪问题么,要怎么解决呀?都没改过任何东西,真奇怪了。

-------------------------------------------------------------------------------------------------------
      目前已经解决了,最终原因是因为有人拔了交换机上连接服务器心跳线的口子,也就是心跳线不通了。因为机房一直管理很严,不会有人随便能进来,也没想会有人把心跳线给拔了。不过通过这个事还是学到了很多东西,谢谢大家了。
参与49

49 同行回答

风影子 风影子 数据库管理员 深圳
我的阵列盘reserve_policy为single_path,现在改为了no_reserve,反而两台主机的实例都启不来了。怎么回事啊,OCR盘是用的祼设备,请问我哪出问题了啊,急死人了,一个都启不来了。显示全部
我的阵列盘reserve_policy为single_path,现在改为了no_reserve,反而两台主机的实例都启不来了。怎么回事啊,OCR盘是用的祼设备,请问我哪出问题了啊,急死人了,一个都启不来了。 收起
互联网服务 · 2010-10-13
浏览984
allanwang allanwang ADMIN IBM
应该就是这个原因。可以用lastcomm检查下有没有人动,有时候动的人没有意识到危害性。就好象一个新手制造的麻烦,有时候十个老手都解决不了,因为他不按照常理出牌。显示全部
应该就是这个原因。可以用lastcomm检查下有没有人动,有时候动的人没有意识到危害性。就好象一个新手制造的麻烦,有时候十个老手都解决不了,因为他不按照常理出牌。 收起
IT分销/经销 · 2010-10-13
浏览970
风影子 风影子 数据库管理员 深圳
不好意思,好像zp_ccc 版主已经回答了我刚才的问题,开始没仔细看,呵。。。明天我到现场去仔细看看,真是奇怪,之前都好好的,没人动的话怎么会不行。显示全部
不好意思,好像zp_ccc 版主已经回答了我刚才的问题,开始没仔细看,呵。。。明天我到现场去仔细看看,真是奇怪,之前都好好的,没人动的话怎么会不行。 收起
互联网服务 · 2010-10-12
浏览1008
风影子 风影子 数据库管理员 深圳
先确定下reserve_lock  no如果已经是了再手工执行一遍reserve_lock=no另外,是不是共享盘的pvid有问题了doestt 发表于 2010-10-12 16:58 如何确定reserve_lock=no,如果不是如何让reserve_lock=no另外如何看共享盘的pvid,就是lspv显示的那个号么?我看了两边是一样...显示全部
先确定下reserve_lock  no
如果已经是了
再手工执行一遍reserve_lock=no
另外,是不是共享盘的pvid有问题了
doestt 发表于 2010-10-12 16:58


如何确定reserve_lock=no,如果不是如何让reserve_lock=no

另外如何看共享盘的pvid,就是lspv显示的那个号么?我看了两边是一样的。 收起
互联网服务 · 2010-10-12
浏览974
风影子 风影子 数据库管理员 深圳
被锁定了吧第一个节点占用了OCR LV,第二个节点就不能使用了,确保reserve_lock=no另外,是什么牌子的存储?EMC的吗?最好定义一下Disk method,否则很容易出现问题 ...myguangzhou 发表于 2010-10-12 20:57 如何确保reserve_lock=no,用什么命令来看它的状态??是看共享盘的么?每个共享...显示全部
被锁定了吧
第一个节点占用了OCR LV,第二个节点就不能使用了,确保reserve_lock=no
另外,是什么牌子的存储?EMC的吗?最好定义一下Disk method,否则很容易出现问题 ...
myguangzhou 发表于 2010-10-12 20:57


如何确保reserve_lock=no,用什么命令来看它的状态??是看共享盘的么?每个共享盘都要确保reserve_lock=no么?

存储是IBM DS4800,这个有什么特殊要求么? 收起
互联网服务 · 2010-10-12
浏览981
zp_ccc zp_ccc 高级技术主管 国内某金融科技公司
To enable simultaneous access to a disk device from multiple nodes, you must set the appropriate Object Data Manager (ODM) attribute listed in the following table to the value shown, depending on the disk type: Disk Type Attribute Value SSA, FAStT, o...显示全部
To enable simultaneous access to a disk device from multiple nodes, you must set the appropriate Object Data Manager (ODM) attribute listed in the following table to the value shown, depending on the disk type:

Disk Type Attribute Value
SSA, FAStT, or non-MPIO-capable disks reserve_lock no

ESS, EMC, HDS, CLARiiON, or MPIO-capable disks
reserve_policy no_reserve

To determine whether the attribute has the correct value, enter a command similar to the following on all cluster nodes for each disk device that you want to use:
# /usr/sbin/lsattr -E -l hdiskn
If the required attribute is not set to the correct value on any node, then enter a command similar to one of the following on that node:
■ SSA and FAStT devices
# /usr/sbin/chdev -l hdiskn -a reserve_lock=no
■ ESS, EMC, HDS, CLARiiON, and MPIO-capable devices
# /usr/sbin/chdev -l hdiskn -a reserve_policy=no_reserve

需要在2个节点上关闭HACMP后分别执行:

chdev -l hdisk2 -a reserve_lock=no
chdev -l hdisk3 -a reserve_lock=no
chdev -l hdisk4 -a reserve_lock=no
chdev -l hdisk5 -a reserve_lock=no

或者:

chdev -l hdisk2 -a reserve_policy=no_reserve
chdev -l hdisk3 -a reserve_policy=no_reserve
chdev -l hdisk4 -a reserve_policy=no_reserve
chdev -l hdisk5 -a reserve_policy=no_reserve

再重新启动HACMP 收起
互联网服务 · 2010-10-12
浏览1047
myguangzhou myguangzhou 技术经理 Uniwise
被锁定了吧第一个节点占用了OCR LV,第二个节点就不能使用了,确保reserve_lock=no另外,是什么牌子的存储?EMC的吗?最好定义一下Disk method,否则很容易出现问题显示全部
被锁定了吧
第一个节点占用了OCR LV,第二个节点就不能使用了,确保reserve_lock=no
另外,是什么牌子的存储?EMC的吗?最好定义一下Disk method,否则很容易出现问题 收起
互联网服务 · 2010-10-12
浏览1000
doestt doestt 其他 NERV
先确定下reserve_lock  no如果已经是了再手工执行一遍reserve_lock=no另外,是不是共享盘的pvid有问题了显示全部
先确定下reserve_lock  no
如果已经是了
再手工执行一遍reserve_lock=no
另外,是不是共享盘的pvid有问题了 收起
2010-10-12
浏览994
myguangzhou myguangzhou 技术经理 Uniwise
如果我回答对了,记得给我钱:lol显示全部
如果我回答对了,记得给我钱:lol 收起
互联网服务 · 2010-10-12
浏览1048

提问者

风影子
风影子 0 3 4
数据库管理员 深圳
擅长领域: 服务器LinuxUnix
评论1223

问题状态

  • 发布时间:2010-10-12
  • 关注会员:0 人
  • 问题浏览:19569
  • 最近回答:2010-10-25
  • X社区推广