系统运行缓慢,某几个磁盘IO压力大?(技术交流)

问题背景描述:银行现有两台P780,两台机器做了rac,A节点的应用比较少,B节点的应用压力比较大,B节点应用压力是A节点的3倍左右。
1、现在B节点的系统出现性能问题,在工作日上午9点左右到下午6点左右出现系统卡慢现象。
通过iostat命令发现有三块磁盘的IO读写访问压力比较大,其他的都很正常,这三个磁盘(比如是hdisk10,hdisk11,hdisk12)被划分给一个LV,这个LV上的文件系统是一个存放应用的log的文件系统。
2、B节点上的应用是Tuxedo,且单个进程对应单个线程。通过收集B节点上的perfpmr给后线工程师分析后,后线给出的结论是应用有好多线程锁,同时对一个内存地址进行访问,而这个内存地址对应文件的正是这些应用的很多log文件。所有的log文件在内存中映射的内存地址都是相同的地址。
问题内容:
1、请问出现系统卡顿性能下降的情况,比如:运行一个topas命令很久才能输出结果;但是系统层面只是发现三个磁盘的IO访问压力大,别的指标都正常,请问系统层面还能做哪些方面的优化?
(首先,监控系统性能发现内存足够来高速缓存那些由正在运行进程使用的文件页面,换页空间使用也正常。
其次,存储方面不想做条带化,所以这点就不考虑了。
再者,也曾设想将现在压力大的盘除了center区域外的其他区域的数据分担到同一个VG的其他磁盘上,但是实际执行上有一定的难度,因为分担到其他盘的center区域上空闲的PPnumber都是不规律的,而且需要计算当前VG中目标盘center区域空间是否足够分担这三块盘的数据,所以不管数据量还是工作量都很大,另外手动迁移的话风险也很大,感觉效果也不会很明显,此方案不考虑了)
2、目前怀疑是应用侧开发使用的统一接口有问题,因为不同的服务输出Log在内存中对应的内存地址都相同。请问有什么方法能更清晰的定位应用程序中哪个函数的调用造成对内存访问不断的加线程锁?
参与77

71同行回答

caichaloucaichalou系统工程师中国邮政储蓄银行
嗯,谢谢您的回复,您的建议很有参考价值。后续我们会跟领导沟通部署nmon工具的,至于在存储上划出三个LUN来做测试估计很困难了,生产系统对性能和资源的要求都很强,另外为了安全方面考虑,感觉客户是不会同意做的。至于硬件加速,比如使用Flash Adapter 90卡、SSD等这些都需要跟客户...显示全部
嗯,谢谢您的回复,您的建议很有参考价值。后续我们会跟领导沟通部署nmon工具的,至于在存储上划出三个LUN来做测试估计很困难了,生产系统对性能和资源的要求都很强,另外为了安全方面考虑,感觉客户是不会同意做的。至于硬件加速,比如使用Flash Adapter 90卡、SSD等这些都需要跟客户协商好,走流程,然后才能用上,再者客户觉得系统以前用的好好的,现在也该没问题,除非拿出实际有说服力的数据才能说服客户采购新设备。所以硬件方面改善性能需从长计议。现在可行的可能也就允许部署一个nmon工具了。收起
银行 · 2015-03-26
浏览1432
phanxphanx系统工程师银行
会不会是IO的性能问题呢? 由于应用不合理的性能需求导致系统性能出现瓶颈?可以用nmon然后看看IOPS大概是多少,根据吞吐量算算平均IO大小是多少。 用nmon analyzer分析个IO曲线出来看看。有条件的话,在同一个存储上划相同的三个LUN出来测一测性能,然后跟生产比较一下,看看是不是...显示全部
会不会是IO的性能问题呢? 由于应用不合理的性能需求导致系统性能出现瓶颈?
可以用nmon然后看看IOPS大概是多少,根据吞吐量算算平均IO大小是多少。 用nmon analyzer分析个IO曲线出来看看。
有条件的话,在同一个存储上划相同的三个LUN出来测一测性能,然后跟生产比较一下,看看是不是遇到性能瓶颈了。
应用问题是显然的,能从应用角度去解决肯定是最优的。但是也要考虑应用暂时无法解决的情况下,自己有没有什么后备手段,毕竟解决问题才是最重要的。
如果是IO问题,在应用无法优化的情况下,如果你的780是 9179-MHD的,那还可以加一个 Flash Adapter 90卡来提供优于SSD的IO性能。 不过我估计你的780不会太新,那么就用普通的SSD也行。收起
银行 · 2015-03-25
浏览1545
caichaloucaichalou系统工程师中国邮政储蓄银行
回复 33# 奔驰男孩     这个涉及到多个部门的问题,处理起来比较慢,所以想知道结果可能需要点耐心了显示全部
回复 33# 奔驰男孩


    这个涉及到多个部门的问题,处理起来比较慢,所以想知道结果可能需要点耐心了收起
银行 · 2015-03-25
浏览1479
caichaloucaichalou系统工程师中国邮政储蓄银行
回复 37# xuedengpan     OK显示全部
回复 37# xuedengpan


    OK收起
银行 · 2015-03-25
浏览1483
caichaloucaichalou系统工程师中国邮政储蓄银行
回复 38# NJYZINFO     正是因为没有长期收集正常时的性能参数,才导致现在出现问题了才想办法解决的。数据中心做长期性能监控是很有必要的,这位仁兄思想很对。显示全部
回复 38# NJYZINFO


    正是因为没有长期收集正常时的性能参数,才导致现在出现问题了才想办法解决的。数据中心做长期性能监控是很有必要的,这位仁兄思想很对。收起
银行 · 2015-03-25
浏览1464
NJYZINFONJYZINFOIT顾问南京元哲
有用Nmon采数据吗? 如果有nmon的历史数据, 有个Nmon大数据平台可以帮忙进行系统整体效能分析, 可以试试!显示全部
有用Nmon采数据吗? 如果有nmon的历史数据, 有个Nmon大数据平台可以帮忙进行系统整体效能分析, 可以试试!收起
系统集成 · 2015-03-25
浏览1472
xuedengpanxuedengpan系统架构师某运营商
回复 36# caichalou    反馈信息到时候有的话分享下,非常好的案例参考!显示全部
回复 36# caichalou


   反馈信息到时候有的话分享下,非常好的案例参考!收起
电信运营商 · 2015-03-25
浏览1522
caichaloucaichalou系统工程师中国邮政储蓄银行
回复 35# tong2012     在等待应用侧反馈信息显示全部
回复 35# tong2012


    在等待应用侧反馈信息收起
银行 · 2015-03-25
浏览1472
tong2012tong2012系统工程师中国航空
现在什么情况了?显示全部
现在什么情况了?收起
系统集成 · 2015-03-24
浏览1449
beachererbeacherer高级经理六艺汇
回复 26# caichalou 增加SAN磁盘,lv-mirror,解除mirror中的内置磁盘。文件系统全程在线,mount point不变,目录树不变。当然同步过程对IO性能有影响。显示全部
回复 26# caichalou

增加SAN磁盘,lv-mirror,解除mirror中的内置磁盘。文件系统全程在线,mount point不变,目录树不变。
当然同步过程对IO性能有影响。收起
IT分销/经销 · 2015-03-24
浏览1604

提问者

caichalou
系统工程师中国邮政储蓄银行
擅长领域: 服务器存储云计算

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2015-03-13
  • 关注会员:3 人
  • 问题浏览:56991
  • 最近回答:2015-12-22
  • X社区推广