在本次社区交流活动中,我发现大家主要碰到的困难有几类:
1、提问:PowerVM虚拟化环境中需要注意哪些地方来使AIX的性能最好,以及如何进行后续管理?
回答:分析一下,这个环境下共有45个LPAR,这个数量已经属于很多的了,由于Power740整体CPU、内存数量有效,因此先请评估是否能满足需求。
在实际规划时,从冗余性进行如下考虑:
(1) 对于存储虚拟化,建议rootvg用vscsi映射,datavg用npiv映射
(2) 对于测试系统,可以使用ssp,对于生产系统不建议使用ssp
(3) 对于NPIV映射,要合理分配光纤卡,例如轮循映射:
对于性能有如下考虑:
(1) 光纤卡参数
fc_err_recov=fast_fail
dyntrk=yes
num_cmd_elems=2048
(2) 网络参数
rfc1323=1
tcp_recvspace = 262144
tcp_sendspace = 262144
(3) vscsi参数
vscsi_path_to=30
vscsi_err_recov=fast_fail
(4) 检查磁盘参数
queue_depath=8
hcheck_mode=nonactive
hcheck_interval=60
更多参考:
http://www.aixchina.net/club/thread-122293-1-1.html
2、提问:如果诊断并解决系统的僵尸进程
回答:以之前处理过的一个case举例:
(1)登录操作系统,通过psaux| grep -i defunct| wc -l来查找僵尸进程,
(2)下面分析僵尸进程的父进程,希望从父进程来查找出是哪个应用程序产生的僵尸进程,从而找到根源。发现使用psaux来进行查找时,僵尸进程的父进程已经看不到了。
(3)然后用kdb分析kernel的信息,也希望通过该方法找到父进程ID。发现也已经找不到父进程。因此通过上述两种分析方法,已经无法通过现有的僵尸进程找到父进程
#kdb
(0)>p * | grep -i zom
pvproc+002400 9
(0)>
(4)下面的分析思路是通过监控来查找最近是否还在产生僵尸进程,因此每1秒钟执行一次下列命令,来查找哪个应用程序有可能产生僵尸进程。
#ps -ef | grep -i defunct | grep -v grep | awk '{ print $2 }' | xargs -n 1proctree
通过多次抓取数据,发现ITM的程序经常性产生僵尸进程,但很快又被操作系统回收了。
/opt/itm/itm_os_agent/aix526
分析僵尸进程的产生的原理,是内核为了保证父进程总是可以获得子进程的信息,在子进程结束后,仍然保留子进程的部分信息,等待父进程通过wait/waitpid获取信息。若父进程从未调用过wait/waitpid,这个多余的信息将被一直保留,子进程成为僵尸进程,一直占用一个进程号。
因此从这个角度来看,虽然不能证明操作系统现有的50个僵尸进程是ITM产生的,但由于ITM经常性产生僵尸进程,因此该软件有较大的嫌疑。
更多参考:http://www.aixchina.net/club/thread-122283-1-2.html
3、提问:物理内存使用率到了80%,甚至有时候到了100%,请问,这能表示内存不足吗
回答:物理内存如果达到95%以上,此时就会使用pagespace,如果瞬间有大量内存的申请的话,可以产生大量pipo,这样有可能把系统搞夯。但如果系统计算内存能稳定在这个比例不变化,也可以勉强运行(至少还有pagingspace吧)
更多参考:http://www.aixchina.net/club/thread-122161-1-2.html
4、提问:aix下根目录文件系统使用率高,如何找到异常大的文件
回答:使用fuser -dV /fsname。这是由于有临时文件导致的,例如占用这个临时文件的应用程序还在运行,这个文件确被删了,此时df-g不会有任何变化,使用fuser-dV /fsname可以找到占用这个临时文件的id号,然后重启这个进程便可以了。
更多参考:http://www.aixchina.net/club/thread-116057-1-2.html
5、提问:aix系统中怎么看网络的性能,如何判断当前网络故障或者网络的带宽降低,及时的通知网络工程师
回答:如果是网络不通的的话可以用errpt或者entstat -d entX | grep -ilink来进行检查。性能的话,我之前写过一个脚本,算吞吐量的,达到一定阈值则告警,具体见下面链接。
更多参考:http://www.aixchina.net/club/thread-122159-1-2.html
6、提问:执行tprof命令收集数据有无需要注意的地方
回答:tprof应该不太耗资源,这是个轻量级的(当然如果之前cpu已经达到100%了,那就另当别论了)。
更大参考:http://www.aixchina.net/club/thread-122173-1-1.html
7、aix系统中怎么看磁盘是否已经达到了io瓶颈
回答:我一般用iostat -D hdiskX 1去看sqfull,如果这个值超过100则说明达到I/O性能瓶颈了。另外,也看磁盘响应时间。
更多参考:http://www.aixchina.net/club/thread-122157-1-2.html
8、提问:有什么经验技巧分享给大家。
回答:之前每遇到一些小技巧便总结下来,今天打包分享给大家,下载链接如下。