soft lockup有什么解决思路?

各位专家好!我们有一套vsphere虚拟化的centos7.6系统,运行的greenplum5的,近期发现cpu使用率很低,但经常出现soft lockup问题,网上一般建议修改kernel.watchdog_thresh值,但我感觉这个治标不治本,有没有更好的解决思路?
类似错误如下:
kernel:NMI watchdog: BUG: soft lockup - CPU#11 stuck for 23s! [vmtoolsd:8176]
kernel:NMI watchdog: BUG: soft lockup - CPU#8 stuck for 45s! [postgres:31820]

参与8

1同行回答

zhaoxiaoyong081zhaoxiaoyong081  资深工程师 , 平安科技
软锁定(soft lockup)通常是由于某个CPU核心长时间处于繁忙状态,无法响应系统的其他请求而导致的问题。解决软锁定的思路通常包括以下几个方面:1、查找软锁定的原因:可以通过查看系统日志和性能指标,分析软锁定发生的原因。可能的原因包括进程崩溃、硬件故障、网络故障、系统资...显示全部

软锁定(soft lockup)通常是由于某个CPU核心长时间处于繁忙状态,无法响应系统的其他请求而导致的问题。解决软锁定的思路通常包括以下几个方面:

1、查找软锁定的原因:可以通过查看系统日志和性能指标,分析软锁定发生的原因。可能的原因包括进程崩溃、硬件故障、网络故障、系统资源不足等。

2、优化系统配置:根据系统日志和性能指标,调整系统配置参数,优化系统性能,以避免软锁定的发生。例如,增加硬件资源、优化进程调度算法、优化网络带宽等。

3、更新或升级设备驱动程序:设备驱动程序可能存在错误或冲突,导致软锁定的发生。可以通过更新或升级设备驱动程序,修复可能的故障或冲突。

4、更新或升级内核版本:内核版本可能存在代码缺陷或漏洞,导致软锁定的发生。可以通过更新或升级内核版本,修复可能的代码缺陷或漏洞。

5、检查应用程序代码:应用程序可能存在代码缺陷或死循环,导致软锁定的发生。可以通过检查应用程序代码,修复可能的缺陷或死循环。

收起
保险 · 2023-03-07
浏览1199

ChatGPT 回答

soft lockup问题通常是由于内核线程长时间占用CPU导致的,而kernel.watchdog_thresh只是一个软件上的解决方案,无法根本解决问题。建议您从以下几个方面入手解决该问题:

  1. 检查系统负载:使用top或htop等工具查看系统负载情况,如果负载过高,可以考虑增加CPU或者优化应用程序。
  2. 检查磁盘I/O:使用iostat等工具查看磁盘I/O情况,如果磁盘I/O过高,可以考虑优化磁盘性能或者调整应用程序。
  3. 检查内存使用情况:使用free或者vmstat等工具查看内存使用情况,如果内存使用过高,可以考虑增加内存或者优化应用程序。
  4. 检查网络带宽:使用iftop等工具查看网络带宽使用情况,如果网络带宽过高,可以考虑优化网络性能或者调整应用程序。
  5. 检查系统日志:查看系统日志,了解软件或者系统是否存在异常情况,如磁盘故障、网络故障等。
  6. 升级内核:如果以上方法都无法解决问题,可以考虑升级内核版本,以获得更好的性能和稳定性。

综上所述,建议您从多个方面入手解决该问题,以获得更好的效果。

提问者

analyst
高级工程师中信特钢
擅长领域: 服务器信创云计算

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2023-03-07
  • 关注会员:2 人
  • 问题浏览:2172
  • 最近回答:2023-03-07
  • X社区推广