AIX性能诊断及调优在线技术交流活动总结

AIX性能诊断及调优在线技术交流活动:
http://www.aixchina.net/club/thread-122047-1-1.html


在本次社区交流活动中,我发现大家主要碰到的困难有几类:


1、提问:PowerVM虚拟化环境中需要注意哪些地方来使AIX的性能最好,以及如何进行后续管理?


回答:分析一下,这个环境下共有45个LPAR,这个数量已经属于很多的了,由于Power740整体CPU、内存数量有效,因此先请评估是否能满足需求。
在实际规划时,从冗余性进行如下考虑:
(1) 对于存储虚拟化,建议rootvg用vscsi映射,datavg用npiv映射
(2) 对于测试系统,可以使用ssp,对于生产系统不建议使用ssp
(3) 对于NPIV映射,要合理分配光纤卡,例如轮循映射:
对于性能有如下考虑:
(1) 光纤卡参数      
fc_err_recov=fast_fail
dyntrk=yes
num_cmd_elems=2048
(2) 网络参数
rfc1323=1
tcp_recvspace = 262144
tcp_sendspace = 262144
(3) vscsi参数
vscsi_path_to=30
vscsi_err_recov=fast_fail
(4) 检查磁盘参数
queue_depath=8
hcheck_mode=nonactive
hcheck_interval=60

更多参考:
http://www.aixchina.net/club/thread-122293-1-1.html


2、提问:如果诊断并解决系统的僵尸进程


回答:以之前处理过的一个case举例:

(1)登录操作系统,通过psaux| grep -i defunct| wc -l来查找僵尸进程,

(2)下面分析僵尸进程的父进程,希望从父进程来查找出是哪个应用程序产生的僵尸进程,从而找到根源。发现使用psaux来进行查找时,僵尸进程的父进程已经看不到了。

(3)然后用kdb分析kernel的信息,也希望通过该方法找到父进程ID。发现也已经找不到父进程。因此通过上述两种分析方法,已经无法通过现有的僵尸进程找到父进程

#kdb

(0)>p * | grep -i zom

pvproc+002400    9 ZOMB   007f3ca 0000000 00007FFFFFFFF000   0 0001

(0)>

(4)下面的分析思路是通过监控来查找最近是否还在产生僵尸进程,因此每1秒钟执行一次下列命令,来查找哪个应用程序有可能产生僵尸进程。

#ps -ef | grep -i defunct | grep -v grep | awk '{ print $2 }' | xargs -n 1proctree

通过多次抓取数据,发现ITM的程序经常性产生僵尸进程,但很快又被操作系统回收了。

/opt/itm/itm_os_agent/aix526

分析僵尸进程的产生的原理,是内核为了保证父进程总是可以获得子进程的信息,在子进程结束后,仍然保留子进程的部分信息,等待父进程通过wait/waitpid获取信息。若父进程从未调用过wait/waitpid,这个多余的信息将被一直保留,子进程成为僵尸进程,一直占用一个进程号。

因此从这个角度来看,虽然不能证明操作系统现有的50个僵尸进程是ITM产生的,但由于ITM经常性产生僵尸进程,因此该软件有较大的嫌疑。

更多参考:http://www.aixchina.net/club/thread-122283-1-2.html


3、提问:物理内存使用率到了80%,甚至有时候到了100%,请问,这能表示内存不足吗


回答:物理内存如果达到95%以上,此时就会使用pagespace,如果瞬间有大量内存的申请的话,可以产生大量pipo,这样有可能把系统搞夯。但如果系统计算内存能稳定在这个比例不变化,也可以勉强运行(至少还有pagingspace吧)

更多参考:http://www.aixchina.net/club/thread-122161-1-2.html


4、提问:aix下根目录文件系统使用率高,如何找到异常大的文件


回答:使用fuser -dV /fsname。这是由于有临时文件导致的,例如占用这个临时文件的应用程序还在运行,这个文件确被删了,此时df-g不会有任何变化,使用fuser-dV /fsname可以找到占用这个临时文件的id号,然后重启这个进程便可以了。

更多参考:http://www.aixchina.net/club/thread-116057-1-2.html


5、提问:aix系统中怎么看网络的性能,如何判断当前网络故障或者网络的带宽降低,及时的通知网络工程师


回答:如果是网络不通的的话可以用errpt或者entstat -d entX | grep -ilink来进行检查。性能的话,我之前写过一个脚本,算吞吐量的,达到一定阈值则告警,具体见下面链接。

更多参考:http://www.aixchina.net/club/thread-122159-1-2.html


6、提问:执行tprof命令收集数据有无需要注意的地方


回答:tprof应该不太耗资源,这是个轻量级的(当然如果之前cpu已经达到100%了,那就另当别论了)。

更大参考:http://www.aixchina.net/club/thread-122173-1-1.html


7、aix系统中怎么看磁盘是否已经达到了io瓶颈


回答:我一般用iostat -D hdiskX 1去看sqfull,如果这个值超过100则说明达到I/O性能瓶颈了。另外,也看磁盘响应时间。

更多参考:http://www.aixchina.net/club/thread-122157-1-2.html


8、提问:有什么经验技巧分享给大家。


回答:之前每遇到一些小技巧便总结下来,今天打包分享给大家,下载链接如下。

更多参考:http://www.aixchina.net/club/thread-122301-1-1.html

参与5

3同行回答

nestlingnestling系统工程师神州数码
看看,高手的回复!显示全部
看看,高手的回复!收起
系统集成 · 2015-04-14
浏览2155
闭嘴难啊闭嘴难啊系统工程师宁波银行
学习学习。很赞显示全部
学习学习。很赞收起
银行 · 2015-04-14
浏览2104
cuizengshuncuizengshun系统运维工程师民生银行
欢迎大家多多参与交流,积极分享!:victory:显示全部
欢迎大家多多参与交流,积极分享!:victory:收起
银行 · 2015-04-14
浏览2932

提问者

cuizengshun
系统运维工程师民生银行
擅长领域: 云计算服务器iaas

相关资料

相关文章

问题状态

  • 发布时间:2015-04-14
  • 关注会员:2 人
  • 问题浏览:5471
  • 最近回答:2015-04-14
  • X社区推广