1、机器型号
.[G%DO^!S‑`z4l0# uname -uM
O eKQGG0IBM,7029-6E3 IBM,01100550A
2、检查系统硬件设备故障灯是否有亮
3、系统错误报告
[1]@1A!mk(K(Q )k0# errpt -d H -T PERM //硬件的错误报告ITPUB个人空间4[!N+q*o U"~z0C
IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTIONITPUB个人空间 g/V!{
l|}@jW!q
Q
BFE4C025 0530085308 P H sysplanar0 UNDETERMINED ERRORITPUB个人空间Gl.B$^GOy
BFE4C025 0529091308 P H sysplanar0 UNDETERMINED ERROR
# errpt -d S -T PERM //软件的错误报告
'Td(b*_*i3Q0# errpt -aj *******|more //具体的错误信息ITPUB个人空间L0~+M"r~/f"K z
# errpt -d H -T PERM>/tmp/hwerror.log //可以把错误的报告存成一个文件
4、有否给 root 用户的错误报告
6NT‑[,?8gv1y/q0# mailITPUB个人空间 qFmp5m k8_‑pz
Mail [5.2 UCB] [AIX 5.X] Type ? for help.ITPUB个人空间:D)a.^+VI
"/var/spool/mail/root": 5 messages 3 new 5 unreadITPUB个人空间@&p3[W
a?{0ck W
U 1 root Thu May 15 09:53 24/884 "diagela message from p615"
KyK [0i
uf])P)Bt0 U 2 root Fri May 16 04:07 24/884 "diagela message from p615"ITPUB个人空间3L
SG"PJ3k~ H
>N 3 root Sat May 24 13:08 23/874 "diagela message from p615"
5、检查 hacmp.out, smit.log, bootlog 等
` b‑vC3y
Y0# lssrc -g cluster/#>lssrc -g clusterITPUB个人空间c#_X3vr
Subsystem Group PID StatusITPUB个人空间+Js9q[1]o t0Q
clstrmgrES cluster 16334 active
一般上 hacmp.out 的位置: /usr/sbin/cluster/ 或者 /tmp/ITPUB个人空间)_l I,O-ms)m:r
H
然后找到最近的 hacmp.out 文件,察看有没有错误信息
6、文件系统检查ITPUB个人空间IIA$gT p:C J 3?v t
# df -kITPUB个人空间;W3i
P"{ UC
Filesystem 1024-blocks Free %Used Iused %Iused Mounted on
)G V/e0G"s'U‑Z+sa2T0/dev/hd4 131072 101568 23% 2268 4% /
[VC @~U L)a3^jW0/dev/hd2 1441792 31256 98% 36056 11% /usr
"o#`"m&^5u%s-KF0/dev/hd9var 131072 117048 11% 418 2% /var
看看有没有超过 90% 使用率的,建议用户改善
7、逻辑卷有否 "stale" 的状态
rqtnx`+]0# lsvg -l rootvg
tP4R[X$Qt0Q ^
J0LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT
F7a;V/Llr ? |4l0hd5 boot 1 1 1 closed/syncd N/AITPUB个人空间hTY Y hG7wT
hd6 paging 4 4 1 open/syncd N/AITPUB个人空间7L/j)NH!I
hd8 jfslog 1 1 1 open/syncd N/AITPUB个人空间
}%B
L
E‑pxxQ"V
z
hd4 jfs 1 1 1 open/syncd /
#f-}D!gX0hd2 jfs 11 11 1 open/syncd /usrITPUB个人空间M4V:^V%haj
hd9var jfs 1 1 1 open/syncd /var
如果系统还有其他卷组,也需要察看
8、内存交换区的使用率是否超过 70%ITPUB个人空间j@.`+M e%F~C
# lsps -aITPUB个人空间:rd.LT%F0k
Page Space Physical Volume Volume Group Size %Used Active Auto TypeITPUB个人空间-z7X;~c?S2A
hd6 hdisk0 rootvg 512MB 1 yes yes lv
ITPUB个人空间/E‑Hk9aB pS[1]rO
9、系统性能是否有瓶颈
:~0"O%u$H0# topasITPUB个人空间-K.mj R[-_N3F
# vmstat 1 10
V(l
R$XV+K#P3Q8TW9lEF0kthr memory page faults cpu
‑Cpmv.D1s`g Y5GMr0----- ----------- ------------------------ ------------ -----------
9[%H J3Ym(AIk0 r b avm fre re pi po fr sr cy in sy cs us sy id waITPUB个人空间&`&b`4I
M^t,U
0 0 110029 408618 0 0 0 0 0 0 4 602 75 0 1 99 0
2}"rA
h2Ls3b0 0 0 110031 408616 0 0 0 0 0 0 1 562 54 1 0 99 0
qKr'g$l1o4|g0 0 0 110031 408616 0 0 0 0 0 0 3 628 84 0 0 99 0
# iostat 1 10ITPUB个人空间'xiG
{U3U
tty: tin tout avg-cpu: % user % sys % idle % iowaitITPUB个人空间u9A
{#|‑q
x2L
0.0 394.0 0.0 0.0 100.0 0.0
Disks: % tm_act Kbps tps Kb_read Kb_wrtnITPUB个人空间?-A7u.a q&{%`v3b
hdisk0 0.0 0.0 0.0 0 0ITPUB个人空间,n5u/} q!m5R
hdisk1 0.0 0.0 0.0 0 0ITPUB个人空间5F3I;PKw
cd0 0.0 0.0 0.0 0 0
10、网络与通讯检查ITPUB个人空间/w
k|[1]b;c L `8I6U|
# ifconfig -a
W[1]Q-z ^A~'`0
# netstat -inITPUB个人空间
U3e2G%@$wbGm8n ]‑O
Name Mtu Network Address Ipkts Ierrs Opkts Oerrs Coll
B!C9KrDys‑vf9kh0[0en0 1500 link#2 0.9.6b.3e.6.ac 1964 0 534 0 0ITPUB个人空间 N(EgQg/u2B
en0 1500 192.168.0 192.168.0.11 1964 0 534 0 0
5o"n+`t [%L0lo0 16896 link#1 267 0 413 0 0ITPUB个人空间
u} O_4F}~H P
lo0 16896 127 127.0.0.1 267 0 413 0 0
# netstat -rn //察看路由情况
Y-~U8l6z8d"`0Routing tablesITPUB个人空间| X*rR V1t
Destination Gateway Flags Refs Use If Exp Groups
Route Tree for Protocol Family 2 (Internet):ITPUB个人空间6j/JR%XQE
q9^
127/8 127.0.0.1 U 7 142 lo0 - -ITPUB个人空间 Md X,D0g;c([@
192.168.0.0 192.168.0.11 UHSb 0 0 en0 - - =>
# vi /etc/hosts //察看 hosts 文件有否特殊的定义ITPUB个人空间
Jj3K
z-]0F$H,Uy,r
# ping ****
#lsattr -El inet0 //路由的检测ITPUB个人空间 e+k2t‑f
GK3|
authm 65536 Authentication Methods True
xo!k7xb/X0hostname h24 Host Name TrueITPUB个人空间
W%A,qy3`C
gateway Gateway TrueITPUB个人空间"}mu:sBP*b O
route net,,0,172.16.23.81 Route TrueITPUB个人空间 m|Z[@ O
bootup_option no Serial Optical Network Interface True
)E.}5_
T-~ v3I4L_,P0rout6 FDDI Network Interface True
11、有否符合要求的系统备份ITPUB个人空间5` E6K4RW O;c
第一次去可以先询问客户关于备份的策略
w2r1i$r jR;_GEx0# ls -l /image.data //看看系统有没有备份的 image 文件,记录最后备份日期ITPUB个人空间(z
PS[1]J‑G}x
-rw-r--r-- 1 root system 9600 May 19 17:31 /image.data
‑Z4i/H@
PQb.ZZ0# lsvg -l rootvg //察看有否符合要求的数据备份和保护ITPUB个人空间%aAs%N$Y%ip‑S~5D
LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT
7V‑k}Z,B)X0hd4 jfs 1 1 1 open/syncd /
b+g0| l
G?
e0hd2 jfs 11 11 1 open/syncd /usrITPUB个人空间 D6S2Q7{7DT&]I,d
hd10opt jfs 1 1 1 open/syncd /optITPUB个人空间%Q:Lk4Iq3@
oraclelv jfs2 80 160 1 open/syncd /oracleITPUB个人空间 z T9h] o8Y
d#Rh
loglv00 jfs2log 1 1 1 open/syncd N/A
.p
YW A/w,{W0testlv jfs 10 20 1 closed/syncd /tmp/test
如何察看数据保护方式 RAID10/RAID5,RAID 的Hotspare 属性是否打开
#smitty ssaraid? Change/Show Attributes of an SSA RAID ArrayITPUB个人空间
6f[tq+H1h
检查Enable Use of Hot Spares属性是否为YES
12、系统 Dump 设置是否正确
%^(V2P V'aL"xp0# sysdumpdev -l
ab(W C7@3ZEA/C2^m0primary /dev/hd6ITPUB个人空间H (J&N D*@ Vg
Uk/Q
secondary /dev/sysdumpnullITPUB个人空间&d3h
U8K,b-[,D8B x
copy directory /var/adm/ras
#@
{ q@5e)z2Q3m0forced copy flag TRUEITPUB个人空间L*kE&yJ/|
always allow dump FALSEITPUB个人空间9@
Q Q;GT2z J
dump compression OFF
# sysdumpdev P p /dev/hd6 s /dev/sysdumpnullITPUB个人空间W+x4}-XdD9?
# sysdumpdev -P -c
13、HACMP 测试ITPUB个人空间b"s A ~ z/I
# /usr/sbin/cluster/diag/clconfig -v '-tr' // Cluster Verification 输出结果无FailITPUB个人空间,K-wW E h9W
# /lssrc -g cluster
14、maxpout, minpout 系统参数ITPUB个人空间J
u l:Y:F‑WSA5^
如果系统中运行了HACMP
-TUV ^"xA"W8R%b0smitty chgsysy,将High/Low water mark从0/0修改为33/24
# lsattr -El sys0|grep maxpout ITPUB个人空间S6I @7m
O)V(p
//maxpout 用途: 对文件指定未决 I/O 的最大数目ITPUB个人空间MEY_4A4D!Y:F/f
值: 缺省值:0(不检查);范围:0 到 n(n 应该是 4 的倍数加 1)
# lsattr -El sys0|grep minpoutITPUB个人空间_+}[1]v^2N
L'O$@ d
//指定一个基点,在该基点处,已达到 maxpout 的程序可以继续写入文件
'x8gr6H"M0值: 缺省值:0(不检查);范围:0 到 n(n 应该是 4 的倍数,且大于或等于 4 小于 maxpout)
15、syncd 参数ITPUB个人空间 G
v9q‑b[1]I0F&h
# grep syncd /sbin/rc.boot //sync() 被 syncd 调用的间隔时间ITPUB个人空间‑}:w8j"c
[$_4t,F8d{0}:]
nohup /usr/sbin/syncd 10 > /dev/null 2>&1 &
值: 缺省值:60;范围:1 到任何正整数ITPUB个人空间K5L4NuX#S x
显示: grep syncd /sbin/rc.boot 或 vi /sbin/rc.boot
/d ^Hc$@3y
_(pk0更改: 更改在下次引导后有效,而且是永久有效。备用方法是使用命令 kill 来终止守护程序
syncd 并用命令 /usr/sbin/syncd interval 从命令行重新启动它。ITPUB个人空间.G'f6C;IVhj‑d
m
诊断: 当 syncd 正在运行时,文件的 I/O 被阻塞了。
nQ`J0G'tg1M0调整: 在缺省级别上,这个参数几乎不影响性能。不推荐对这个参数进行更改。为了保持数据完整
性对于 HACMP而使 syncd interval 明显缩小,会导致性能下降。
更改命令为:ITPUB个人空间{ ?;iq
U(BV
N
#vi /sbin/rc.boot
16、aio 参数 //异步 I/O 可调参数
Uq0ZR'd5pc(_$D0# lsdev -C|grep aioITPUB个人空间|‑l O Z,}^H
f
察看状态是否是 available
# lsattr -El aio0
L[1]f"f$yY
CI
k0} d0^0minservers 1 MINIMUM number of servers TrueITPUB个人空间6i{
Yw{
|$J
maxservers 10 MAXIMUM number of servers True
(Y&Cf'F4He.^0maxreqs 4096 Maximum number of REQUESTS True
U3r
G _V7u
^5i‑Sy0kprocprio 39 Server PRIORITY TrueITPUB个人空间}#n
i!{!r f!Su,
autoconfig available STATE to be configured at system restart True
`5FwEO6q(KI6`N0fastpath enable State of fast path True
# smit aio //可以更改参数
17、检查 errdaemon, srcmstr 是否正常运行
b.eM&j*,VTd0# ps -ef|grep err
y7{M8nA t