互联网服务

RAC 哪个节点先启动HA就哪个节点实例能启动的问题

前面都一直好好的,RAC的两个节点都一切运行正常,可是我出差了一个多月回来检查数据库的时候发现只有一个节点的实例在运行,另一个节点怎么都启动不了,后来将服务器重启了也不行,后来无意中发现哪个节点先启动HA,那个节点就能正常启动所有实例,而后启动的一个实例都启动不了,真怪... 显示全部
前面都一直好好的,RAC的两个节点都一切运行正常,可是我出差了一个多月回来检查数据库的时候发现只有一个节点的实例在运行,另一个节点怎么都启动不了,后来将服务器重启了也不行,后来无意中发现哪个节点先启动HA,那个节点就能正常启动所有实例,而后启动的一个实例都启动不了,真怪了。问了下可能操作这台服务器的人,都说没做过什么配置,自我走后就没人动过数据库。
     看了下rac日志,最近都一直报一个错误

2010-10-11 12:17:15.846: [  OCROSD][1]utopen:7:failed to open OCR file/disk /dev/rOCRFile /dev/rOCRFileMirror, errno=6, os err string=No such device or address
2010-10-11 12:17:15.846: [  OCRRAW][1]proprinit: Could not open raw device
2010-10-11 12:17:15.846: [ default][1]a_init:7!: Backend init unsuccessful : [26]
2010-10-11 12:17:15.846: [ CSSCLNT][1]clsssinit: Unable to access OCR device in OCR init.


就是说不能访问OCR,有人碰到过这种奇怪问题么,要怎么解决呀?都没改过任何东西,真奇怪了。

-------------------------------------------------------------------------------------------------------
      目前已经解决了,最终原因是因为有人拔了交换机上连接服务器心跳线的口子,也就是心跳线不通了。因为机房一直管理很严,不会有人随便能进来,也没想会有人把心跳线给拔了。不过通过这个事还是学到了很多东西,谢谢大家了。 收起
参与49

查看其它 48 个回答风影子 的回答

风影子 风影子 数据库管理员 深圳
你要先查清楚盘和node的对应关系:
# ls -l /dev |grep rOCRFile
会显示一个类似的东西出来:
crw-r----1 root oinstill 24, 8192 Aug 10 2010 /dev/rOCRFile
注意: 24, 8192是major number
# ls -l /dev |grep "2 ...
allanwang 发表于 2010-10-13 14:05


$ ls -l /dev |grep rOCRFile
crw-r-----    1 root     oinstall     44,  1 Oct 13 14:15 rOCRFile
crw-r-----    1 root     oinstall     44,  2 Oct 13 14:15 rOCRFileMirror
$ ^C
$ ls -l /dev |grep "44,  1"
brw-rw----    1 root     system       44,  1 Aug 10 13:38 OCRFile
crw-r-----    1 root     oinstall     44,  1 Oct 13 14:16 rOCRFile

两个节点都是一样的结果,我是将lspv中显示concurrent的盘全部执行了chdev -l hdiskn -a reserve_policy=no_reserve

这样有问题么?之前这几个全是reserve_policy  = single_path

现在各盘的属性如下
$ lsattr -E -l hdisk4
PCM             PCM/friend/otherapdisk                                         Path Control Module              False
PR_key_value    none                                                           Persistant Reserve Key Value     True
algorithm       fail_over                                                      Algorithm                        True
autorecovery    no                                                             Path/Ownership Autorecovery      True
clr_q           no                                                             Device CLEARS its Queue on error True
cntl_delay_time 0                                                              Controller Delay Time            True
cntl_hcheck_int 0                                                              Controller Health Check Interval True
dist_err_pcnt   0                                                              Distributed Error Percentage     True
dist_tw_width   50                                                             Distributed Error Sample Time    True
hcheck_cmd      inquiry                                                        Health Check Command             True
hcheck_interval 60                                                             Health Check Interval            True
hcheck_mode     nonactive                                                      Health Check Mode                True
location                                                                       Location Label                   True
lun_id          0x0                                                            Logical Unit Number ID           False
lun_reset_spt   yes                                                            LUN Reset Supported              True
max_retry_delay 60                                                             Maximum Quiesce Time             True
max_transfer    0x40000                                                        Maximum TRANSFER Size            True
node_name       0x20040080e5180528                                             FC Node Name                     False
pvid            00cbdf5548f629d80000000000000000                               Physical volume identifier       False
q_err           yes                                                            Use QERR bit                     True
q_type          simple                                                         Queuing TYPE                     True
queue_depth     10                                                             Queue DEPTH                      True
reassign_to     120                                                            REASSIGN time out value          True
reserve_policy  no_reserve                                                     Reserve Policy                   True
rw_timeout      30                                                             READ/WRITE time out value        True
scsi_id         0x10000                                                        SCSI ID                          False
start_timeout   60                                                             START unit time out value        True
unique_id       3E21360080E5000180528000002C04C5B5D1F0F1814      FAStT03IBMfcp Unique device identifier         False
ww_name         0x20140080e5180528                                             FC World Wide Name               False
$ lsattr -E -l hdisk5
PCM             PCM/friend/otherapdisk                                         Path Control Module              False
PR_key_value    none                                                           Persistant Reserve Key Value     True
algorithm       fail_over                                                      Algorithm                        True
autorecovery    no                                                             Path/Ownership Autorecovery      True
clr_q           no                                                             Device CLEARS its Queue on error True
cntl_delay_time 0                                                              Controller Delay Time            True
cntl_hcheck_int 0                                                              Controller Health Check Interval True
dist_err_pcnt   0                                                              Distributed Error Percentage     True
dist_tw_width   50                                                             Distributed Error Sample Time    True
hcheck_cmd      inquiry                                                        Health Check Command             True
hcheck_interval 60                                                             Health Check Interval            True
hcheck_mode     nonactive                                                      Health Check Mode                True
location                                                                       Location Label                   True
lun_id          0x1000000000000                                                Logical Unit Number ID           False
lun_reset_spt   yes                                                            LUN Reset Supported              True
max_retry_delay 60                                                             Maximum Quiesce Time             True
max_transfer    0x40000                                                        Maximum TRANSFER Size            True
node_name       0x20040080e5180528                                             FC Node Name                     False
pvid            00cbdf5548f6399b0000000000000000                               Physical volume identifier       False
q_err           yes                                                            Use QERR bit                     True
q_type          simple                                                         Queuing TYPE                     True
queue_depth     10                                                             Queue DEPTH                      True
reassign_to     120                                                            REASSIGN time out value          True
reserve_policy  no_reserve                                                     Reserve Policy                   True
rw_timeout      30                                                             READ/WRITE time out value        True
scsi_id         0x10000                                                        SCSI ID                          False
start_timeout   60                                                             START unit time out value        True
unique_id       3E21360080E500017FF1C000002AC4C5B5DE60F1814      FAStT03IBMfcp Unique device identifier         False
ww_name         0x20140080e5180528                                             FC World Wide Name               False
$ lsattr -E -l hdisk6
PCM             PCM/friend/otherapdisk                                         Path Control Module              False
PR_key_value    none                                                           Persistant Reserve Key Value     True
algorithm       fail_over                                                      Algorithm                        True
autorecovery    no                                                             Path/Ownership Autorecovery      True
clr_q           no                                                             Device CLEARS its Queue on error True
cntl_delay_time 0                                                              Controller Delay Time            True
cntl_hcheck_int 0                                                              Controller Health Check Interval True
dist_err_pcnt   0                                                              Distributed Error Percentage     True
dist_tw_width   50                                                             Distributed Error Sample Time    True
hcheck_cmd      inquiry                                                        Health Check Command             True
hcheck_interval 60                                                             Health Check Interval            True
hcheck_mode     nonactive                                                      Health Check Mode                True
location                                                                       Location Label                   True
lun_id          0x2000000000000                                                Logical Unit Number ID           False
lun_reset_spt   yes                                                            LUN Reset Supported              True
max_retry_delay 60                                                             Maximum Quiesce Time             True
max_transfer    0x40000                                                        Maximum TRANSFER Size            True
node_name       0x20040080e5180204                                             FC Node Name                     False
pvid            00cbdf5548f6457e0000000000000000                               Physical volume identifier       False
q_err           yes                                                            Use QERR bit                     True
q_type          simple                                                         Queuing TYPE                     True
queue_depth     10                                                             Queue DEPTH                      True
reassign_to     120                                                            REASSIGN time out value          True
reserve_policy  no_reserve                                                     Reserve Policy                   True
rw_timeout      30                                                             READ/WRITE time out value        True
scsi_id         0x10400                                                        SCSI ID                          False
start_timeout   60                                                             START unit time out value        True
unique_id       3E21360080E5000180204000002934C5B61FA0F1814      FAStT03IBMfcp Unique device identifier         False
ww_name         0x20140080e5180204                                             FC World Wide Name               False
$ lsattr -E -l hdisk7
PCM             PCM/friend/otherapdisk                                         Path Control Module              False
PR_key_value    none                                                           Persistant Reserve Key Value     True
algorithm       fail_over                                                      Algorithm                        True
autorecovery    no                                                             Path/Ownership Autorecovery      True
clr_q           no                                                             Device CLEARS its Queue on error True
cntl_delay_time 0                                                              Controller Delay Time            True
cntl_hcheck_int 0                                                              Controller Health Check Interval True
dist_err_pcnt   0                                                              Distributed Error Percentage     True
dist_tw_width   50                                                             Distributed Error Sample Time    True
hcheck_cmd      inquiry                                                        Health Check Command             True
hcheck_interval 60                                                             Health Check Interval            True
hcheck_mode     nonactive                                                      Health Check Mode                True
location                                                                       Location Label                   True
lun_id          0x3000000000000                                                Logical Unit Number ID           False
lun_reset_spt   yes                                                            LUN Reset Supported              True
max_retry_delay 60                                                             Maximum Quiesce Time             True
max_transfer    0x40000                                                        Maximum TRANSFER Size            True
node_name       0x20040080e5180204                                             FC Node Name                     False
pvid            00cbdf5548f653cc0000000000000000                               Physical volume identifier       False
q_err           yes                                                            Use QERR bit                     True
q_type          simple                                                         Queuing TYPE                     True
queue_depth     10                                                             Queue DEPTH                      True
reassign_to     120                                                            REASSIGN time out value          True
reserve_policy  no_reserve                                                     Reserve Policy                   True
rw_timeout      30                                                             READ/WRITE time out value        True
scsi_id         0x10400                                                        SCSI ID                          False
start_timeout   60                                                             START unit time out value        True
unique_id       3E21360080E50001802680000029B4C5B62120F1814      FAStT03IBMfcp Unique device identifier         False
ww_name         0x20140080e5180204                                             FC World Wide Name               False
互联网服务 · 2010-10-13
浏览584

回答者

风影子
风影子 0 3 4
数据库管理员 深圳
擅长领域: 服务器LinuxUnix
评论1223

风影子 最近回答过的问题

回答状态

  • 发布时间:2010-10-13
  • 关注会员:0 人
  • 回答浏览:584
  • X社区推广