ps aux 因 Java 进程 CPU/IO 过高而挂起

Question 1

一般来说，我见过这种情况因为读取停滞而发生。您的输出证实了这一点。当您运行命令strace时，尝试读取 /proc/xxxx/cmdline 文件会挂起。ps aux

I/O 的瞬时峰值会耗尽系统资源。如果与存储子系统有关，则 90-160 的负载是极其糟糕的消息。

对于存储阵列，您能告诉我们是否有硬件 RAID 控制器吗？服务器上的主要应用程序是否具有写偏向性？您提到的磁盘（12 x 4TB）是低速近线 SAS 或 SATA 磁盘。如果没有写缓存在驱动器阵列前面，写入能够大大增加系统负载。如果这些是 Supermicro 背板上的纯 SATA 驱动器，请不要低估其他磁盘问题的可能性（超时、驱动器故障、背板故障等）这是否在所有 Hadoop 节点上都会发生？

一个简单的测试是尝试iotop在发生这种情况时运行。此外，由于这是 EL6.5，您是否有任何tuned-adm设置是否已启用？是否已启用写入屏障？

如果您没有更改服务器的 I/O 提升器，ionice可能会产生影响。如果您将其更改为CFQ，（该服务器可能应该在最后期限)，ionice不会有什么区别。

编辑：

我在生产环境中还看到了另一个奇怪的事情。这些是 Java 进程，我假设它们是多线程的。你的 PID 怎么样sysctl？内核.pid_max? 我曾经遇到过 PID 耗尽并导致高负荷的情况。

另外，您提到了内核版本更新日志。它已有一年多历史，是 CentOS 6.4 版本的一部分，但您服务器的其余部分是 6.5。您是否在 yum.conf 中将内核更新列入黑名单？对于该系统，您可能应该使用内核 2.6.32-431.xx 或更新版本。你的旧内核可能存在大页面问题。如果您无法更改内核，请尝试使用以下命令禁用它们：

echo never > /sys/kernel/mm/redhat_transparent_hugepage/enabled。

Answer

一般来说，我见过这种情况因为读取停滞而发生。您的输出证实了这一点。当您运行命令strace时，尝试读取 /proc/xxxx/cmdline 文件会挂起。ps aux

I/O 的瞬时峰值会耗尽系统资源。如果与存储子系统有关，则 90-160 的负载是极其糟糕的消息。

对于存储阵列，您能告诉我们是否有硬件 RAID 控制器吗？服务器上的主要应用程序是否具有写偏向性？您提到的磁盘（12 x 4TB）是低速近线 SAS 或 SATA 磁盘。如果没有写缓存在驱动器阵列前面，写入能够大大增加系统负载。如果这些是 Supermicro 背板上的纯 SATA 驱动器，请不要低估其他磁盘问题的可能性（超时、驱动器故障、背板故障等）这是否在所有 Hadoop 节点上都会发生？

一个简单的测试是尝试iotop在发生这种情况时运行。此外，由于这是 EL6.5，您是否有任何tuned-adm设置是否已启用？是否已启用写入屏障？

如果您没有更改服务器的 I/O 提升器，ionice可能会产生影响。如果您将其更改为CFQ，（该服务器可能应该在最后期限)，ionice不会有什么区别。

编辑：

我在生产环境中还看到了另一个奇怪的事情。这些是 Java 进程，我假设它们是多线程的。你的 PID 怎么样sysctl？内核.pid_max? 我曾经遇到过 PID 耗尽并导致高负荷的情况。

另外，您提到了内核版本更新日志。它已有一年多历史，是 CentOS 6.4 版本的一部分，但您服务器的其余部分是 6.5。您是否在 yum.conf 中将内核更新列入黑名单？对于该系统，您可能应该使用内核 2.6.32-431.xx 或更新版本。你的旧内核可能存在大页面问题。如果您无法更改内核，请尝试使用以下命令禁用它们：

echo never > /sys/kernel/mm/redhat_transparent_hugepage/enabled。

Question 2

很明显，问题不是磁盘相关的问题。从挂起的 strace 可以清楚地看出这一点：

open("/proc/18679/cmdline", O_RDONLY)   = 5
read(5,

/proc 是内核和用户空间之间的接口。它根本不接触磁盘。如果在读取命令的参数时出现问题，通常是内核相关的问题，不太可能是存储问题。请参阅 @kasperd 评论。

负载只是问题的副作用，高数字并不能说明全部情况。您可能拥有一个负载非常高的服务器，但应用程序运行没有任何故障。

您可以获取有关发生的情况的更多信息cat /proc/$PID/stack。$PID读取停滞的进程 ID 在哪里。

对于您来说，我会从内核升级开始。

Answer

很明显，问题不是磁盘相关的问题。从挂起的 strace 可以清楚地看出这一点：

open("/proc/18679/cmdline", O_RDONLY)   = 5
read(5,

/proc 是内核和用户空间之间的接口。它根本不接触磁盘。如果在读取命令的参数时出现问题，通常是内核相关的问题，不太可能是存储问题。请参阅 @kasperd 评论。

负载只是问题的副作用，高数字并不能说明全部情况。您可能拥有一个负载非常高的服务器，但应用程序运行没有任何故障。

您可以获取有关发生的情况的更多信息cat /proc/$PID/stack。$PID读取停滞的进程 ID 在哪里。

对于您来说，我会从内核升级开始。

Question 3

因此，即使经过了所有调整并升级到 CentOS 提供的最新 2.6 内核，我们仍然会看到挂起。虽然没有以前那么多，但还是可以看到。

修复方法是升级到 CentOS 在其 centosplus 存储库中提供的 3.10.x 系列内核。

http://mirror.centos.org/centos/6/xen4/x86_64/Packages/

这消除了所有进程树挂起。正如我所说，系统没有承受任何疯狂的负载，运行新进程不会很迅速。所以大多数是 2.6 内核的问题。

Answer

因此，即使经过了所有调整并升级到 CentOS 提供的最新 2.6 内核，我们仍然会看到挂起。虽然没有以前那么多，但还是可以看到。

修复方法是升级到 CentOS 在其 centosplus 存储库中提供的 3.10.x 系列内核。

http://mirror.centos.org/centos/6/xen4/x86_64/Packages/

这消除了所有进程树挂起。正如我所说，系统没有承受任何疯狂的负载，运行新进程不会很迅速。所以大多数是 2.6 内核的问题。

Question 4

这是另一个修复。

看起来我们正在运行以下 raid 控制器

Adaptec 71605

我已经对所有受影响的机器进行固件更新至最新版本，似乎问题已经得到解决。

由于在 CentOS 6 上安装 3.10 时出现其他随机问题，我们不得不从 3.10 内核实验降级，但固件升级似乎解决了该问题。

Answer

这是另一个修复。

看起来我们正在运行以下 raid 控制器

Adaptec 71605

我已经对所有受影响的机器进行固件更新至最新版本，似乎问题已经得到解决。

由于在 CentOS 6 上安装 3.10 时出现其他随机问题，我们不得不从 3.10 内核实验降级，但固件升级似乎解决了该问题。

ps aux 因 Java 进程 CPU/IO 过高而挂起

答案1

答案2

答案3

答案4

相关内容