6.IBM公司的巡检流程 IBM公司的巡检流程,对我们日常维护应重点关注的事项有所帮助,大家可以借鉴一下。 (1)检查系统硬件情况:设备故障灯是否亮。 (2)系统错误报告。 (3)检查是否有发给root用户的错误报告。 (4)检查hacmp.out,smit.log,boot.log。 (5)关键系统的文件使用率不大于80%。 (6)逻辑卷有...
显示全部6.IBM公司的巡检流程
IBM公司的巡检流程,对我们日常维护应重点关注的事项有所帮助,大家可以借鉴一下。
(1)检查系统硬件情况:设备故障灯是否亮。
(2)系统错误报告。
(3)检查是否有发给root用户的错误报告。
(4)检查hacmp.out,smit.log,boot.log。
(5)关键系统的文件使用率不大于80%。
(6)逻辑卷有否stale。
(7)内存交换区使用率是否超过70%。
(8)内存交换区的大小是否为物理内存的1.5倍。
(9)检查备份情况(是否有系统备份、用户数据备份,磁带机是否需要清洗)。
(10)检查通信设置(网卡、IP、路由表、ping、/etc/hosts、DNS设置等)。
(11)是否有数据保护方式如RAID10/RAID5是否有Hot Spare。
(12)系统DUMP设置是否正确。
(13)检查系统参数是否正确。
(14)检查rootvg是否镜像。
(15)检查errdemonsrcmstr是否正常运行。
(16)检查机房环境(电压、湿度)。
(17)检查系统性能:是否存在性能瓶颈topasvmstat。
(18)检查补丁程序(PTF)、微码(是否需要升级)。
(19)进行HACMP测试:Cluster Verification。
(20)进行系统硬件诊断:运行故障诊断程序(Diagnostic)。
三、AIX系统参数优化
AIX内核属于动态内核,核心参数基本上可以自动调整,因此当系统安装完毕后,应考虑修改的参数一般包括以下内容。
1.系统用户的最大登录数maxlogin
maxlogin的具体大小可根据用户数设定,可以通过smitty chlicense命令修改,该参数记录在/etc/security/login.cfg文件中,修改在系统重新启动后生效。
2.系统用户的limits参数
这些参数位于/etc/security/limits文件中,可以把这些参数设为-1即无限制,可以用vi修改/etc/security/limits文件,所有修改在用户重新登录后生效。
3.Paging Space
检查Paging Space的大小,在物理内存<2G时,应至少设定为物理内存的1.5倍,若物理内存>2G,可作适当调整。同时在创建Paging Space时 应尽量分配在不同的硬盘上,提高其性能。利用smitty chps修改原有Paging Space的大小或利用smitty mkps增加一块Paging Space。
4.系统核心参数配置
利用lsattr -Elsys0检查maxuproc,minpout,maxpout等参数的大小。maxuproc为每个用户的最大进程数通常如果系统运行Oracle应调整maxuproc,将Default:128调整到500,maxuproc增加可以马上生效。当应用涉及大量的顺序读写而影响前台程序响应时间时,可考虑将maxpout设为33minpout设为16,用smitty chgsys命令设置。
5.文件系统空间的设定
一般来说,文件系统/、/usr、/var、/tmp的使用率不应超过80%,/tmp建议至少为300M,文件系统满将导致系统不能正常工作,尤其是AIX的基本文件系统,如/根文件系统满则会导致用户不能登录。用df 查看:#df-k(查看AIX的基本文件系统),利用smitty chfs扩展文件系统的空间。
6.激活SSA Fast-Write Cache
利用smitty ssafastw激活每一个逻辑盘hdiskn的Fast-Write Cache:选择硬盘后,把Enable Fast-Write改为Yes后,回车即可。
7.High water mark for pending write I/Os per file maxpout和Low water mark for pending write I/Os per file配置
其缺省值为0,在双机环境中一般应将High water mark设为33Low water mark设为24,这两个参数可用smitty chgsys来设置。
8.syncd daemon的数据刷新频率
该值表示刷新内存数据到硬盘的频率,缺省值为60,一般可改为20,也可根据实际情况更改。该参数通过/sbin/rc.boot配置,将nohup/usr/sbin/syncd 60>/dev/null 2>&1&参数中的60改为20即可。
四、AIX系统备份和恢复
备份和恢复是系统管理员经常要做的事情,主要包括rootvg备份和用户数据备份。
1.操作系统和系统程序的备份
#tctl -f /dev/rmt0 rewind
#smit mksysb
在“备份设备或文件”中添入“/dev/rmt0”后回车,系统会运行很长时间,等到屏幕显示OK后拿出磁带。这时候,系统备份完成。mksysb仅备份rootvg中已安装的文件系统。
2.用户数据备份
(1)常用磁带机选项
/dev/rmt0若选择/dev/rmt0,在插入磁带和写完一次磁带时,磁带机都将磁带反绕到头。因此下一次备份文件将覆盖本次备份。
/dev/rmt0.1若选择/dev/rmt0.1则插入磁带和写完一次磁带时,磁带机均不反绕磁带。因此,一盘磁带可以连续备份几个文件或文件系统。
(2)#smit fs
选择“备份文件系统”,输入要备份的“文件系统名称”,输入“/dev/rmt0.1”,重复上述操作即可在同一盘磁带上备份多个文件系统。
3.rootvg的恢复
启动机器进入维护模式,当出现“Welcome to Base Operating System Installation and Maintanence”时,选3 “Start Maintenance Mode for System Recovery”,要恢复系统,继续选4“Install from a System Backup”,出现“Choose mksysb Device”画面,选“/dev/rmt0”并插入磁带后回车,系统自动恢复操作系统。
4.用户数据恢复
#tctl -f /dev/rmt0 rewind
#smit fs
选择“恢复文件系统”,添入“设备名称”和“目标目录”,系统会自动恢复相应目录。
五、AIX系统日常检查
AIX系统日常检查工作是应用维护非常重要的部分,可以把系统故障排除在萌芽阶段,以下日常检查很有参考价值。
(1)硬件检查
检查各指示灯状态和各物理设备的可用情况。
(2)进程检查
检查是否有死进程,使用ps -ef命令列出正在运行的所有进程的各种信息。
(3)文件系统是否满
适用df-k 命令可以以k为单位检查文件系统的使用率。
(4)检查系统出错日志
使用errpt |more命令检查,清除现有的logErrclear 0。
(5)检查系统合法/非法登录情况
使用Last命令检查登录地点。
(6)检查系统是否有巨大的Core文件生成
使用find / -name core-print命令检查。对Core文件,一般直接删除即可。
(7)系统性能检查
①CPU性能:使用Vmstat topas命令检查。
②内存使用情况:使用topas,vmstat命令检查。
③检查IO平衡使用情况:使用iostat命令检查。
④交换空间使用情况:使用lsps -a命令检查。
(8)Mail检查
收起