高负载会导致服务器挂起并出现错误“阻塞超过 120 秒”吗？

Question 1

是的，可以。

这句话的意思非常明确：内核无法在 120 秒内安排任务。这表明资源匮乏，通常是在磁盘访问方面。

irqbalance可能会有帮助，但这听起来不太明显。您能为我们提供此消息的背景信息吗dmesg，特别是其后的堆栈跟踪？

此外，这是不是误报。这并不是说任务挂起了永远，这个说法完全正确。但这并不意味着这对你来说是个问题，如果你没有注意到任何用户影响，你可以决定忽略它。

这不是由以下原因造成的：

CPU 问题（或者更确切地说，这是极不可能发生的硬件故障），
内存问题（不太可能是硬件故障，但不会多次发生；而不是进程缺少 RAM oom-killed），
再次缺乏交换oom-killer。

在某种程度上，您可能会将此归咎于内存不足，因为剥夺系统在 RAM 中的数据缓存会导致更多 I/O。但这并不像“内存不足”那么简单。

Answer

是的，可以。

这句话的意思非常明确：内核无法在 120 秒内安排任务。这表明资源匮乏，通常是在磁盘访问方面。

irqbalance可能会有帮助，但这听起来不太明显。您能为我们提供此消息的背景信息吗dmesg，特别是其后的堆栈跟踪？

此外，这是不是误报。这并不是说任务挂起了永远，这个说法完全正确。但这并不意味着这对你来说是个问题，如果你没有注意到任何用户影响，你可以决定忽略它。

这不是由以下原因造成的：

CPU 问题（或者更确切地说，这是极不可能发生的硬件故障），
内存问题（不太可能是硬件故障，但不会多次发生；而不是进程缺少 RAM oom-killed），
再次缺乏交换oom-killer。

在某种程度上，您可能会将此归咎于内存不足，因为剥夺系统在 RAM 中的数据缓存会导致更多 I/O。但这并不像“内存不足”那么简单。

Question 2

sudo sysctl -w vm.dirty_ratio=10
sudo sysctl -w vm.dirty_background_ratio=5

然后使用以下命令提交更改：

sudo sysctl -p

帮我解决了....

Answer

sudo sysctl -w vm.dirty_ratio=10
sudo sysctl -w vm.dirty_background_ratio=5

然后使用以下命令提交更改：

sudo sysctl -p

帮我解决了....

Question 3

我最近在我们的一个生产集群中遇到了这个错误：

11 月 11 日 14:56:41 xxx 内核：INFO：任务 xfsalloc/3:2393 阻塞超过 120 秒。

11 月 11 日 14:56:41 Xxxx 内核：未受污染 2.6.32-504.8.1.el6.x86_64 #1

11 月 11 日 14:56:41 xxx：“echo 0 > /proc/sys/kernel/hung_task_timeout_secs”禁用此消息。

..

进一步验证 sar 日志发现，同一时间内 IO 等待时间增加了。

检查硬件（物理磁盘）后发现，存在中等错误，并且物理磁盘上记录了其他 SCSI 错误，由于缺乏可分配的资源，这又阻塞了 IO。

2015 年 11 月 11 日 19:52:40：终止 pRdm 607b8000 flags=0 TimeOutC=0 RetryC=0 请求 c1173100 回复 60e06040 iocStatus 0048 retryC 0 devId:3 devFlags=f1482005 iocLogInfo:31140000

2015 年 11 月 11 日 19:52:40：DM_ProcessDevWaitQueue：进程 devId=x 中的任务管理 2015 年 11 月 11 日 19:52:40：DM_ProcessDevWaitQueue：进程 devId=x 中的任务管理

所以这是由于我们集群中的硬件错误造成的。

因此，如果您可以检查核心文件并且 ipmi 实用程序是否存在，请检查 ipmiutil/ipmitool sel elist 命令以检查问题，这样会很好。

问候，VT

Answer