互联网服务

RAC 哪个节点先启动HA就哪个节点实例能启动的问题

前面都一直好好的,RAC的两个节点都一切运行正常,可是我出差了一个多月回来检查数据库的时候发现只有一个节点的实例在运行,另一个节点怎么都启动不了,后来将服务器重启了也不行,后来无意中发现哪个节点先启动HA,那个节点就能正常启动所有实例,而后启动的一个实例都启动不了,真怪了。问了下可能操作这台服务器的人,都说没做过什么配置,自我走后就没人动过数据库。
     看了下rac日志,最近都一直报一个错误

2010-10-11 12:17:15.846: [  OCROSD][1]utopen:7:failed to open OCR file/disk /dev/rOCRFile /dev/rOCRFileMirror, errno=6, os err string=No such device or address
2010-10-11 12:17:15.846: [  OCRRAW][1]proprinit: Could not open raw device
2010-10-11 12:17:15.846: [ default][1]a_init:7!: Backend init unsuccessful : [26]
2010-10-11 12:17:15.846: [ CSSCLNT][1]clsssinit: Unable to access OCR device in OCR init.


就是说不能访问OCR,有人碰到过这种奇怪问题么,要怎么解决呀?都没改过任何东西,真奇怪了。

-------------------------------------------------------------------------------------------------------
      目前已经解决了,最终原因是因为有人拔了交换机上连接服务器心跳线的口子,也就是心跳线不通了。因为机房一直管理很严,不会有人随便能进来,也没想会有人把心跳线给拔了。不过通过这个事还是学到了很多东西,谢谢大家了。
参与49

49同行回答

风影子风影子数据库管理员深圳
对不起,我没仔细看你的帖子,其实OCRFile就是我说的hdiskN,改它就可以了。allanwang 发表于 2010-10-13 14:46 没事,有你们的热心解答我已经很知足了,这个数据库不是我安装的,是oracle一个代理商来实施的,但现在他出差在外地,我只能电话跟他沟通,但也没什么结果。所以只好上来求助...显示全部
对不起,我没仔细看你的帖子,其实OCRFile就是我说的hdiskN,改它就可以了。
allanwang 发表于 2010-10-13 14:46


没事,有你们的热心解答我已经很知足了,这个数据库不是我安装的,是oracle一个代理商来实施的,但现在他出差在外地,我只能电话跟他沟通,但也没什么结果。所以只好上来求助了。

这个ocrfile是建的裸设备,阵列划分的磁盘我都执行了chdev -l hdiskn -a reserve_policy=no_reserve收起
互联网服务 · 2010-10-13
浏览501
风影子风影子数据库管理员深圳
我明白了,我以前也犯过你同样的错误,$ ls -l /dev |grep "44,  1"你这个命令中的major number 是手打的吧? 用前一个命令结果的copy试试,这个问题曾经困扰了我好几天。 ...allanwang 发表于 2010-10-13 14:34 不是手打的哦,是我复制的,到底是哪个盘要执行chdev -l h...显示全部
我明白了,我以前也犯过你同样的错误,
$ ls -l /dev |grep "44,  1"
你这个命令中的major number 是手打的吧? 用前一个命令结果的copy试试,这个问题曾经困扰了我好几天。 ...
allanwang 发表于 2010-10-13 14:34


不是手打的哦,是我复制的,到底是哪个盘要执行chdev -l hdisk4 -a reserve_policy=no_reserve 啊,我还没太弄懂。你的意思是说要知道祼设备是建在哪个盘下就对哪个盘执行么?收起
互联网服务 · 2010-10-13
浏览496
allanwangallanwangADMINIBM
对不起,我没仔细看你的帖子,其实我觉得OCRFile就是我说的hdiskN,改它就可以了。我没有做过raw的镜像,所以不太明白如何处理镜像盘的问题。显示全部
对不起,我没仔细看你的帖子,其实我觉得OCRFile就是我说的hdiskN,改它就可以了。我没有做过raw的镜像,所以不太明白如何处理镜像盘的问题。收起
IT分销/经销 · 2010-10-13
浏览503
allanwangallanwangADMINIBM
concurrent的盘是不需要执行此操作的,我不知道这样做会产生什么影响,我个人觉得不必做,所谓做多错多就是这么解释吧。另外你的raw好像做了镜像,两个盘都得设置。显示全部
concurrent的盘是不需要执行此操作的,我不知道这样做会产生什么影响,我个人觉得不必做,所谓做多错多就是这么解释吧。
另外你的raw好像做了镜像,两个盘都得设置。收起
IT分销/经销 · 2010-10-13
浏览490
allanwangallanwangADMINIBM
我明白了,我以前也犯过你同样的错误,$ ls -l /dev |grep "44,  1"你这个命令中的major number 是手打的吧? 用前一个命令结果的copy试试,这个问题曾经困扰了我好几天。显示全部
我明白了,我以前也犯过你同样的错误,
$ ls -l /dev |grep "44,  1"
你这个命令中的major number 是手打的吧? 用前一个命令结果的copy试试,这个问题曾经困扰了我好几天。收起
IT分销/经销 · 2010-10-13
浏览494
风影子风影子数据库管理员深圳
你要先查清楚盘和node的对应关系:# ls -l /dev |grep rOCRFile会显示一个类似的东西出来:crw-r----1 root oinstill 24, 8192 Aug 10 2010 /dev/rOCRFile注意: 24, 8192是major number# ls -l /dev |grep "2 ...allanwang 发表于 2010-10-13 14:05 $ ls -l /dev |grep rOCRF...显示全部
你要先查清楚盘和node的对应关系:
# ls -l /dev |grep rOCRFile
会显示一个类似的东西出来:
crw-r----1 root oinstill 24, 8192 Aug 10 2010 /dev/rOCRFile
注意: 24, 8192是major number
# ls -l /dev |grep "2 ...
allanwang 发表于 2010-10-13 14:05


$ ls -l /dev |grep rOCRFile
crw-r-----    1 root     oinstall     44,  1 Oct 13 14:15 rOCRFile
crw-r-----    1 root     oinstall     44,  2 Oct 13 14:15 rOCRFileMirror
$ ^C
$ ls -l /dev |grep "44,  1"
brw-rw----    1 root     system       44,  1 Aug 10 13:38 OCRFile
crw-r-----    1 root     oinstall     44,  1 Oct 13 14:16 rOCRFile

两个节点都是一样的结果,我是将lspv中显示concurrent的盘全部执行了chdev -l hdiskn -a reserve_policy=no_reserve

这样有问题么?之前这几个全是reserve_policy  = single_path

现在各盘的属性如下
$ lsattr -E -l hdisk4
PCM             PCM/friend/otherapdisk                                         Path Control Module              False
PR_key_value    none                                                           Persistant Reserve Key Value     True
algorithm       fail_over                                                      Algorithm                        True
autorecovery    no                                                             Path/Ownership Autorecovery      True
clr_q           no                                                             Device CLEARS its Queue on error True
cntl_delay_time 0                                                              Controller Delay Time            True
cntl_hcheck_int 0                                                              Controller Health Check Interval True
dist_err_pcnt   0                                                              Distributed Error Percentage     True
dist_tw_width   50                                                             Distributed Error Sample Time    True
hcheck_cmd      inquiry                                                        Health Check Command             True
hcheck_interval 60                                                             Health Check Interval            True
hcheck_mode     nonactive                                                      Health Check Mode                True
location                                                                       Location Label                   True
lun_id          0x0                                                            Logical Unit Number ID           False
lun_reset_spt   yes                                                            LUN Reset Supported              True
max_retry_delay 60                                                             Maximum Quiesce Time             True
max_transfer    0x40000                                                        Maximum TRANSFER Size            True
node_name       0x20040080e5180528                                             FC Node Name                     False
pvid            00cbdf5548f629d80000000000000000                               Physical volume identifier       False
q_err           yes                                                            Use QERR bit                     True
q_type          simple                                                         Queuing TYPE                     True
queue_depth     10                                                             Queue DEPTH                      True
reassign_to     120                                                            REASSIGN time out value          True
reserve_policy  no_reserve                                                     Reserve Policy                   True
rw_timeout      30                                                             READ/WRITE time out value        True
scsi_id         0x10000                                                        SCSI ID                          False
start_timeout   60                                                             START unit time out value        True
unique_id       3E21360080E5000180528000002C04C5B5D1F0F1814      FAStT03IBMfcp Unique device identifier         False
ww_name         0x20140080e5180528                                             FC World Wide Name               False
$ lsattr -E -l hdisk5
PCM             PCM/friend/otherapdisk                                         Path Control Module              False
PR_key_value    none                                                           Persistant Reserve Key Value     True
algorithm       fail_over                                                      Algorithm                        True
autorecovery    no                                                             Path/Ownership Autorecovery      True
clr_q           no                                                             Device CLEARS its Queue on error True
cntl_delay_time 0                                                              Controller Delay Time            True
cntl_hcheck_int 0                                                              Controller Health Check Interval True
dist_err_pcnt   0                                                              Distributed Error Percentage     True
dist_tw_width   50                                                             Distributed Error Sample Time    True
hcheck_cmd      inquiry                                                        Health Check Command             True
hcheck_interval 60                                                             Health Check Interval            True
hcheck_mode     nonactive                                                      Health Check Mode                True
location                                                                       Location Label                   True
lun_id          0x1000000000000                                                Logical Unit Number ID           False
lun_reset_spt   yes                                                            LUN Reset Supported              True
max_retry_delay 60                                                             Maximum Quiesce Time             True
max_transfer    0x40000                                                        Maximum TRANSFER Size            True
node_name       0x20040080e5180528                                             FC Node Name                     False
pvid            00cbdf5548f6399b0000000000000000                               Physical volume identifier       False
q_err           yes                                                            Use QERR bit                     True
q_type          simple                                                         Queuing TYPE                     True
queue_depth     10                                                             Queue DEPTH                      True
reassign_to     120                                                            REASSIGN time out value          True
reserve_policy  no_reserve                                                     Reserve Policy                   True
rw_timeout      30                                                             READ/WRITE time out value        True
scsi_id         0x10000                                                        SCSI ID                          False
start_timeout   60                                                             START unit time out value        True
unique_id       3E21360080E500017FF1C000002AC4C5B5DE60F1814      FAStT03IBMfcp Unique device identifier         False
ww_name         0x20140080e5180528                                             FC World Wide Name               False
$ lsattr -E -l hdisk6
PCM             PCM/friend/otherapdisk                                         Path Control Module              False
PR_key_value    none                                                           Persistant Reserve Key Value     True
algorithm       fail_over                                                      Algorithm                        True
autorecovery    no                                                             Path/Ownership Autorecovery      True
clr_q           no                                                             Device CLEARS its Queue on error True
cntl_delay_time 0                                                              Controller Delay Time            True
cntl_hcheck_int 0                                                              Controller Health Check Interval True
dist_err_pcnt   0                                                              Distributed Error Percentage     True
dist_tw_width   50                                                             Distributed Error Sample Time    True
hcheck_cmd      inquiry                                                        Health Check Command             True
hcheck_interval 60                                                             Health Check Interval            True
hcheck_mode     nonactive                                                      Health Check Mode                True
location                                                                       Location Label                   True
lun_id          0x2000000000000                                                Logical Unit Number ID           False
lun_reset_spt   yes                                                            LUN Reset Supported              True
max_retry_delay 60                                                             Maximum Quiesce Time             True
max_transfer    0x40000                                                        Maximum TRANSFER Size            True
node_name       0x20040080e5180204                                             FC Node Name                     False
pvid            00cbdf5548f6457e0000000000000000                               Physical volume identifier       False
q_err           yes                                                            Use QERR bit                     True
q_type          simple                                                         Queuing TYPE                     True
queue_depth     10                                                             Queue DEPTH                      True
reassign_to     120                                                            REASSIGN time out value          True
reserve_policy  no_reserve                                                     Reserve Policy                   True
rw_timeout      30                                                             READ/WRITE time out value        True
scsi_id         0x10400                                                        SCSI ID                          False
start_timeout   60                                                             START unit time out value        True
unique_id       3E21360080E5000180204000002934C5B61FA0F1814      FAStT03IBMfcp Unique device identifier         False
ww_name         0x20140080e5180204                                             FC World Wide Name               False
$ lsattr -E -l hdisk7
PCM             PCM/friend/otherapdisk                                         Path Control Module              False
PR_key_value    none                                                           Persistant Reserve Key Value     True
algorithm       fail_over                                                      Algorithm                        True
autorecovery    no                                                             Path/Ownership Autorecovery      True
clr_q           no                                                             Device CLEARS its Queue on error True
cntl_delay_time 0                                                              Controller Delay Time            True
cntl_hcheck_int 0                                                              Controller Health Check Interval True
dist_err_pcnt   0                                                              Distributed Error Percentage     True
dist_tw_width   50                                                             Distributed Error Sample Time    True
hcheck_cmd      inquiry                                                        Health Check Command             True
hcheck_interval 60                                                             Health Check Interval            True
hcheck_mode     nonactive                                                      Health Check Mode                True
location                                                                       Location Label                   True
lun_id          0x3000000000000                                                Logical Unit Number ID           False
lun_reset_spt   yes                                                            LUN Reset Supported              True
max_retry_delay 60                                                             Maximum Quiesce Time             True
max_transfer    0x40000                                                        Maximum TRANSFER Size            True
node_name       0x20040080e5180204                                             FC Node Name                     False
pvid            00cbdf5548f653cc0000000000000000                               Physical volume identifier       False
q_err           yes                                                            Use QERR bit                     True
q_type          simple                                                         Queuing TYPE                     True
queue_depth     10                                                             Queue DEPTH                      True
reassign_to     120                                                            REASSIGN time out value          True
reserve_policy  no_reserve                                                     Reserve Policy                   True
rw_timeout      30                                                             READ/WRITE time out value        True
scsi_id         0x10400                                                        SCSI ID                          False
start_timeout   60                                                             START unit time out value        True
unique_id       3E21360080E50001802680000029B4C5B62120F1814      FAStT03IBMfcp Unique device identifier         False
ww_name         0x20140080e5180204                                             FC World Wide Name               False收起
互联网服务 · 2010-10-13
浏览575
allanwangallanwangADMINIBM
另外,现在不出问题,不代表以后不出问题,留下隐患是不好的,以后出问题的时候,你忘记了这件事,就需要花更多的精力去查,还不一定能否查出来。显示全部
另外,现在不出问题,不代表以后不出问题,留下隐患是不好的,以后出问题的时候,你忘记了这件事,就需要花更多的精力去查,还不一定能否查出来。收起
IT分销/经销 · 2010-10-13
浏览499
风影子风影子数据库管理员深圳
ocssd.log和crsd.log也有相应的日志,仔细再看看myguangzhou 发表于 2010-10-13 13:00 这两个节点的这两个日志我都传上来吧,帮我分析下,谢谢,现在ocr盘好像是能访问啦。两个节点的进程好像也起来了节点1$  ps -ef | grep d.bin  oracle 131206 131590&n...显示全部
ocssd.log和crsd.log也有相应的日志,仔细再看看
myguangzhou 发表于 2010-10-13 13:00


这两个节点的这两个日志我都传上来吧,帮我分析下,谢谢,现在ocr盘好像是能访问啦。


两个节点的进程好像也起来了
节点1

$  ps -ef | grep d.bin
  oracle 131206 131590   0 13:14:00      -  0:00 /oracle/products/10.2.0/crs_1/bin/evmd.bin
  oracle 151784 103176   0 13:14:04      -  0:04 /oracle/products/10.2.0/crs_1/bin/ocssd.bin
  oracle 155660 127462   0 14:05:18  pts/0  0:00 grep d.bin
    root 107280  73968   0 13:14:01      -  0:00 /oracle/products/10.2.0/crs_1/bin/crsd.bin reboot

$ crs_stat -t
CRS-0184: Cannot communicate with the CRS daemon.

节点2

$  ps -ef | grep d.bin
  oracle 221192 262412   0 14:05:19  pts/0  0:00 grep d.bin
    root  94494 115184   0 13:13:03      -  0:37 /oracle/products/10.2.0/crs_1/bin/crsd.bin reboot
  oracle 151830 147594   0 13:13:06      -  0:05 /oracle/products/10.2.0/crs_1/bin/ocssd.bin
  oracle 156452 106802   0 13:13:03      -  0:00 /oracle/products/10.2.0/crs_1/bin/evmd.bin

$ crs_stat -t
Name           Type           Target    State     Host        
------------------------------------------------------------
ora....c1.inst application    ONLINE    OFFLINE               
ora....c2.inst application    ONLINE    ONLINE    afcdb02     
ora.afc.db     application    ONLINE    ONLINE    afcdb02     
ora....SM1.asm application    ONLINE    OFFLINE               
ora....01.lsnr application    ONLINE    OFFLINE               
ora....b01.gsd application    ONLINE    OFFLINE               
ora....b01.ons application    ONLINE    OFFLINE               
ora....b01.vip application    ONLINE    ONLINE    afcdb02     
ora....SM2.asm application    ONLINE    ONLINE    afcdb02     
ora....02.lsnr application    ONLINE    ONLINE    afcdb02     
ora....b02.gsd application    ONLINE    ONLINE    afcdb02     
ora....b02.ons application    ONLINE    ONLINE    afcdb02     
ora....b02.vip application    ONLINE    ONLINE    afcdb02   

现在是节点2的实例都跑起来了,节点1实例起不来。

附件:

附件图标log.rar (617.93 KB)

收起
互联网服务 · 2010-10-13
浏览515
allanwangallanwangADMINIBM
你要先查清楚盘和node的对应关系:# ls -l /dev |grep rOCRFile会显示一个类似的东西出来:crw-r----1 root oinstill 24, 8192 Aug 10 2010 /dev/rOCRFile注意: 24, 8192是major number# ls -l /dev |grep "24, 8192"找出有相同major number的hdiskN 和rhdiskN,他们是一组的,是...显示全部
你要先查清楚盘和node的对应关系:
# ls -l /dev |grep rOCRFile
会显示一个类似的东西出来:
crw-r----1 root oinstill 24, 8192 Aug 10 2010 /dev/rOCRFile
注意: 24, 8192是major number
# ls -l /dev |grep "24, 8192"
找出有相同major number的hdiskN 和rhdiskN,他们是一组的,是一个东西,你要改变的是hdiskN的属性:
# chdev -l hdiskN -a reserve_lock=no
或者
# chdev -l hdiskN -a reserve_policy=no_reserve收起
IT分销/经销 · 2010-10-13
浏览533
风影子风影子数据库管理员深圳
被锁定了吧第一个节点占用了OCR LV,第二个节点就不能使用了,确保reserve_lock=no另外,是什么牌子的存储?EMC的吗?最好定义一下Disk method,否则很容易出现问题 ...myguangzhou 发表于 2010-10-12 20:57 Disk method这个要怎么定义,会不会是这个没定义引起的?...显示全部
被锁定了吧
第一个节点占用了OCR LV,第二个节点就不能使用了,确保reserve_lock=no
另外,是什么牌子的存储?EMC的吗?最好定义一下Disk method,否则很容易出现问题 ...
myguangzhou 发表于 2010-10-12 20:57


Disk method这个要怎么定义,会不会是这个没定义引起的?收起
互联网服务 · 2010-10-13
浏览501

提问者

风影子
数据库管理员深圳
擅长领域: 服务器LinuxUnix

问题状态

  • 发布时间:2010-10-12
  • 关注会员:0 人
  • 问题浏览:19387
  • 最近回答:2010-10-25
  • X社区推广