各位专家好!我们有一套vsphere虚拟化的centos7.6系统,运行的greenplum5的,近期发现cpu使用率很低,但经常出现soft lockup问题,网上一般建议修改kernel.watchdog_thresh值,但我感觉这个治标不治本,有没有更好的解决思路?
类似错误如下:
kernel:NMI watchdog: BUG: soft lockup - CPU#11 stuck for 23s! [vmtoolsd:8176]
kernel:NMI watchdog: BUG: soft lockup - CPU#8 stuck for 45s! [postgres:31820]
软锁定(soft lockup)通常是由于某个CPU核心长时间处于繁忙状态,无法响应系统的其他请求而导致的问题。解决软锁定的思路通常包括以下几个方面:
1、查找软锁定的原因:可以通过查看系统日志和性能指标,分析软锁定发生的原因。可能的原因包括进程崩溃、硬件故障、网络故障、系统资源不足等。
2、优化系统配置:根据系统日志和性能指标,调整系统配置参数,优化系统性能,以避免软锁定的发生。例如,增加硬件资源、优化进程调度算法、优化网络带宽等。
3、更新或升级设备驱动程序:设备驱动程序可能存在错误或冲突,导致软锁定的发生。可以通过更新或升级设备驱动程序,修复可能的故障或冲突。
4、更新或升级内核版本:内核版本可能存在代码缺陷或漏洞,导致软锁定的发生。可以通过更新或升级内核版本,修复可能的代码缺陷或漏洞。
5、检查应用程序代码:应用程序可能存在代码缺陷或死循环,导致软锁定的发生。可以通过检查应用程序代码,修复可能的缺陷或死循环。
收起