经典实施案例征集。。。。

如果在实施排错过程中有好的案例。。。可以贴上来与大家共享。按照案例的优质程度加分哦。
参与37

37同行回答

myciciymyciciyIT顾问某金融科技公司
今晚上客户那加班,再关HA时,发现SYBASE数据库没有完全停掉时,VG就被varyoff 了,这导致数据库异常,一些数据库进程被挂起.经修改HACMP的停止脚本,现已正常!!!修改的方法就是在关闭数据库命令的下行加入sleep 30,让HA在此处停留30秒,再进行下边的动作.呵呵,正常...显示全部
今晚上客户那加班,再关HA时,发现SYBASE数据库没有完全停掉时,VG就被varyoff 了,这导致数据库异常,一些数据库进程被挂起.经修改HACMP的停止脚本,现已正常!!!
修改的方法就是在关闭数据库命令的下行加入sleep 30,让HA在此处停留30秒,再进行下边的动作.呵呵,正常收起
银行 · 2009-01-14
浏览549
myciciymyciciyIT顾问某金融科技公司
周一去客户那里巡检,用errpt一检查,考,NND,一大堆的ssa0 资源不可利用。凭偶的经验看,跟pdisk关系重大。做diag,报SRN:47500.检查了service guide。让重做阵列或者更换硬盘。有问题的阵列由2块pdisk盘做的raid1。和另外一个由2块pdisk盘做的raid1做成datavg。NND,用migratepv迁...显示全部
周一去客户那里巡检,用errpt一检查,考,NND,一大堆的ssa0 资源不可利用。凭偶的经验看,跟pdisk关系重大。做diag,报SRN:47500.
检查了service guide。让重做阵列或者更换硬盘。有问题的阵列由2块pdisk盘做的raid1。和另外一个由2块pdisk盘做的raid1做成datavg。NND,用migratepv迁移lv到好的raid1上的话,空间不够,只有回去,取盘。

2天后拿着ssa盘重回客户处,做vg备份,数据库备份。之后,什么lspv,lspv -l,看了看,做到对lv情况心中有数。然后做extendvg把自己带来的好盘扩到datavg里,migratepv把有问题的盘的lv迁移到好盘上。reducevg把坏盘删掉,进入smit ssaraid把有问题的阵列删掉,重新建raid1,把数据又迁移回来。把好盘用reducevg从datavg里删掉。至此,系统不再报错。收起
银行 · 2009-01-14
浏览565
myciciymyciciyIT顾问某金融科技公司
问题已经得到解决,是双机的补丁没有打的缘故我的HACMP是5。1。0。0的打到5。1。0。4显示全部
问题已经得到解决,是双机的补丁没有打的缘故
我的HACMP是5。1。0。0的打到5。1。0。4收起
银行 · 2009-01-14
浏览541
myciciymyciciyIT顾问某金融科技公司
HACMP启动非常慢,两台机器一起启动,主机需要等半个多小时才能启动,备机就根本启不来。查看/tmp/hacmp.out,没看到什么异常。事情经过是这样的:机器配置IBMP630+EMCCX500 采用AIX5.1ML06+HACMP5.1.0.1由于业务原因,要配置两种资源组,即采用concurrent+rotading组合方式,在配置的时...显示全部
HACMP启动非常慢,两台机器一起启动,主机需要等半个多小时才能启动,备机就根本启不来。查看/tmp/hacmp.out,没看到什么异常。
事情经过是这样的:
机器配置IBMP630+EMCCX500 采用AIX5.1ML06+HACMP5.1.0.1
由于业务原因,要配置两种资源组,即采用concurrent+rotading组合方式,
在配置的时候没什么问题,拓扑及资源组都同步成功。第一次启动双机也很正常。重起以后,切换也正常。
后来由于机器要挪动,所以把主机和阵列之间的光纤拔掉。恢复连接后,系统遇到无法识别VG的故障(是EMC的存储内部设置问题,后解决),之后我直接我安装JAVA1.4(按理说跟这应该没什么关系)。但每次HACMP启动都非常慢,两台机器一起启动,主机需要等半个多小时才能启动,备机就根本启不来。查看/tmp/hacmp.out,没看到什么异常。
我找不到其他原因,特向各位大虾求救。
跟HACMP补丁有没有关系?收起
银行 · 2009-01-14
浏览534
myciciymyciciyIT顾问某金融科技公司
hacmp环境下更换磁带机1,主机A停HACMP集群服务并切换到备机,并确认 (smitty clstop, clstat)2,系统中删除磁带机设备 ( rmdev -dl rmt0)3,关闭主机A   (shutdown -F)4,卸载取出磁带机                ...显示全部
hacmp环境下更换磁带机
1,主机A停HACMP集群服务并切换到备机,并确认 (smitty clstop, clstat)
2,系统中删除磁带机设备 ( rmdev -dl rmt0)
3,关闭主机A   (shutdown -F)
4,卸载取出磁带机                  
5,启动机器A,重新切换回主机检查集群工作正常  (clstat)收起
银行 · 2009-01-13
浏览575
myciciymyciciyIT顾问某金融科技公司
转帖 某个客户aix接ds6800,sddpcm的path cfgmgr都是好的,但一旦aix重起,其中的一个logical volumn的path 有一条会disable,errpt报错有可能是hba或cable有问题,diag fcsX都没问题,cable拔出来看,有红光射出,应该这两个都没问题.   于是pcmpath set adapter 1 o...显示全部
转帖

某个客户aix接ds6800,sddpcm的path cfgmgr都是好的,但一旦aix重起,其中的一个logical volumn的path 有一条会disable,errpt报错有可能是hba或cable有问题,diag fcsX都没问题,cable拔出来看,有红光射出,应该这两个都没问题.
   
于是pcmpath set adapter 1 offline 再pcmpath set adapter 1 online,path就全部没问题了,于是在inittab里加上这两条命令的脚本,再重起aix, 但客户不干,坚决不同意这种解决方法,于是我又想了个馊主义,把一块内置盘extendvg进来,做了把migratepv,然后把有问题的盘踢出,再在ds6800控制台上把那个logical volumn干掉,按原来的做法重新做一个出来,然后再cfgmgr认出来,再加回来,再把内置盘踢出去,重起aix,就再也没有path disable的问题了,客户不放心,再重起了三次,还是没问题,
其实我到现在都没明白为什么有一条path会disable,管它呢,不管白猫黑猫,解决了就行,什么东西都钻研到底哪有那个精力,而且解决的时间也比这法子要慢收起
银行 · 2009-01-07
浏览520
myciciymyciciyIT顾问某金融科技公司
在安装了 AIX5.2 操作系统的p系列服务器上安装HACMP时,应注意以下问题:=======================AIX 5.2上的SNMP注意事项=======================关于SNMP agents的版本,AIX 5.2版本缺省使用的是SNMP version 3 agents,而HACMP使用的是 SNMP version 1 agents。由于HACMP...显示全部
在安装了 AIX5.2 操作系统的p系列服务器上安装HACMP时,应注意以下问题:

=======================
AIX 5.2上的SNMP注意事项
=======================

关于SNMP agents的版本,AIX 5.2版本缺省使用的是SNMP version 3 agents,而HACMP使用的是 SNMP version 1 agents。由于HACMP在启动和停止C-SPOC cluster的过程中,和在CLINFO的执行过程中,都需使用SNMP协议,因此如果使用AIX 5.2的缺省配置,则这些程序将不能正常工作。

解决的办法是将AIX 5.2 所使用的SNMP agent改为版本1。具体做法是执行AIX 提供的以下应用程序:

/usr/sbin/snmpv3_ssw -1

这样一来,AIX 5.2 上的SNMP agent,就与HACMP相匹配了。

注意:命令行的参数是数字1.收起
银行 · 2009-01-04
浏览527
myciciymyciciyIT顾问某金融科技公司
数据库报无法连接,tns-12500,无法创建专用的服务器进程。我在操作系统的日志信息中发现如下错误。DescriptionSOFTWARE PROGRAM ABNORMALLY TERMINATEDProbable CausesSYSTEM RUNNING OUT OF PAGING SPACEFailure CausesINSUFFICIENT PAGING SPACE DEFINED FOR THE SYSTEM...显示全部
数据库报无法连接,tns-12500,无法创建专用的服务器进程。
我在操作系统的日志信息中发现如下错误。
Description
SOFTWARE PROGRAM ABNORMALLY TERMINATED
Probable Causes
SYSTEM RUNNING OUT OF PAGING SPACE
Failure Causes
INSUFFICIENT PAGING SPACE DEFINED FOR THE SYSTEM
PROGRAM USING EXCESSIVE AMOUNT OF PAGING SPACE
        Recommended Actions
        DEFINE ADDITIONAL PAGING SPACE
        REDUCE PAGING SPACE REQUIREMENTS OF PROGRAM(S)
Detail Data
PROGRAM
oracle
USER'S PROCESS ID:
           0
PROGRAM'S PAGING SPACE USE IN 1KB BLOCKS
           0
---------------------------------------------------------------------------
LABEL:          PGSP_KILL
IDENTIFIER:     C5C09FFA
Date/Time:       Thu Dec 25 09:11:34 CST 2008
Sequence Number: 72223
Machine Id:      00CE79EF4C00
Node Id:         p595-1-lpar4
Class:           S
Type:            PERM
Resource Name:   SYSVMM         
topas的结果如下:
Kernel    0.1   |#                           |  Reads         2  Rawin         0
User      0.0   |#                           |  Writes        5  Ttyout      251
Wait      0.0   |                            |  Forks         0  Igets         0
Idle     99.9   |############################|  Execs         0  Namei         1
                                                Runqueue    0.0  Dirblk        0
Network  KBPS   I-Pack  O-Pack   KB-In  KB-Out  Waitqueue   0.0
en0       1.1      5.5     6.0     0.3     0.8
lo0       0.0      0.0     0.0     0.0     0.0  PAGING           MEMORY
                                                Faults        0  Real,MB   16384
Disk    Busy%     KBPS     TPS KB-Read KB-Writ  Steals        0  % Comp     95.9
hdisk0    0.0      0.0     0.0     0.0     0.0  PgspIn        0  % Noncomp   0.9
hdisk1    0.0      0.0     0.0     0.0     0.0  PgspOut       0  % Client    0.9
hdisk3    0.0      0.0     0.0     0.0     0.0  PageIn        0
hdisk4    0.0      0.0     0.0     0.0     0.0  PageOut       0  PAGING SPACE
hdisk46   0.0      0.0     0.0     0.0     0.0  Sios          0  Size,MB     512
hdisk11   0.0      0.0     0.0     0.0     0.0                   % Used     94.9
hdisk67   0.0      0.0     0.0     0.0     0.0  NFS (calls/sec)  % Free      5.0
hdisk5    0.0      0.0     0.0     0.0     0.0  ServerV2       0
hdisk10   0.0      0.0     0.0     0.0     0.0  ClientV2       0   Press:
hdisk8    0.0      0.0     0.0     0.0     0.0  ServerV3       0   "h" for help
hdisk49   0.0      0.0     0.0     0.0     0.0  ClientV3       0   "q" to quit
hdisk6    0.0      0.0     0.0     0.0     0.0
hdisk9    0.0      0.0     0.0     0.0     0.0
hdisk13   0.0      0.0     0.0     0.0     0.0
hdisk69   0.0      0.0     0.0     0.0     0.0
Name            PID  CPU%  PgSp Owner
dtterm      1474682   0.1   1.5 root  
topas       1769562   0.0   2.3 root  
gil           98352   0.0   0.1 root  
xmgc          45078   0.0   0.0 root  
resv_min     221314   0.0   0.1 root  
oracle      1843368   0.0   3.7 oracle
oracle       401608   0.0   8.5 oracle
rmcd         274600   0.0   1.4 root  
sendmail     290980   0.0   1.0 root  
rpc.lock     307358   0.0   0.2 root  
pilegc        40980   0.0   0.2 root  
oracle       368838   0.0   4.5 oracle
syncd        110760   0.0   0.5 root  
netm          94254   0.0   0.0 root  
oracle      1355846   0.0   8.5 oracle
oracle      1147092   0.0   8.4 oracle
oracle       352464   0.0   6.3 oracle
# more /etc/swapspaces
* /etc/swapspaces
*
* This file lists all the paging spaces that are automatically put into
* service on each system restart (the 'swapon -a' command executed from
* /etc/rc swaps on every device listed here).
*
* WARNING: Only paging space devices should be listed here.
*
* This file is modified by the chps, mkps and rmps commands and referenced
* by the lsps and swapon commands.
hd6:
   dev = /dev/hd6
通过topas说明内存16G,交换paging space 512M,很明显空间不够使用。
解决方法:增加交换分区
smit pgsp
mkps
增加后问题解决。收起
银行 · 2009-01-04
浏览503
myciciymyciciyIT顾问某金融科技公司
谢谢啊 呵呵显示全部
谢谢啊 呵呵收起
银行 · 2009-01-03
浏览498
mophismophis软件开发工程师杭州
帮你顶哦!:handshake显示全部
帮你顶哦!:handshake收起
互联网服务 · 2009-01-03
浏览529

提问者

myciciy
myciciy21035
IT顾问某金融科技公司
擅长领域: 服务器存储灾备

相关资料

问题状态

  • 发布时间:2008-12-30
  • 关注会员:0 人
  • 问题浏览:17714
  • 最近回答:2011-08-10
  • X社区推广