Linux CPU 软锁定、内核受污染、系统挂起

Question

“引用”格式而不是“代码”是一团糟，但在这里我抢救了可能最有用的部分：

Sep 27 10:21:20 hadoop-9 kernel: BUG: soft lockup - CPU#2 stuck for 22s!
...
Sep 27 10:21:20 hadoop-9 kernel: Call Trace: 
Sep 27 10:21:20 hadoop-9 kernel: 
Sep 27 10:21:20 hadoop-9 kernel: 
Sep 27 10:21:20 hadoop-9 kernel: [] __do_softirq+0xef/0x280 
Sep 27 10:21:20 hadoop-9 kernel: [] call_softirq+0x1c/0x30 
Sep 27 10:21:20 hadoop-9 kernel: [] do_softirq+0x65/0xa0 
Sep 27 10:21:20 hadoop-9 kernel: [] irq_exit+0x115/0x120 
Sep 27 10:21:20 hadoop-9 kernel: [] smp_apic_timer_interrupt+0x45/0x60 
Sep 27 10:21:20 hadoop-9 kernel: [] apic_timer_interrupt+0x6d/0x80 
Sep 27 10:21:20 hadoop-9 kernel: 
Sep 27 10:21:20 hadoop-9 kernel: 
Sep 27 10:21:20 hadoop-9 kernel: [] ? vmballoon_work+0x2b3/0x720 [vmw_balloon] 
Sep 27 10:21:20 hadoop-9 kernel: [] process_one_work+0x17b/0x470 
Sep 27 10:21:20 hadoop-9 kernel: [] worker_thread+0x11b/0x400 
Sep 27 10:21:20 hadoop-9 kernel: [] ? rescuer_thread+0x400/0x400 
Sep 27 10:21:20 hadoop-9 kernel: [] kthread+0xcf/0xe0 
Sep 27 10:21:20 hadoop-9 kernel: [] ? kthread_create_on_node+0x140/0x140 
Sep 27 10:21:20 hadoop-9 kernel: [] ret_from_fork+0x58/0x90 
Sep 27 10:21:20 hadoop-9 kernel: [] ? kthread_create_on_node+0x140/0x140

调用跟踪的上半部分看起来像定时器中断触发的非常通用的跟踪。这可能就是检测到软锁定的原因。

最下面的部分好像是系统已经在vmw_balloon驱动里了。该驱动程序与VMware一起使用，它允许底层虚拟化主机告诉VM它暂时无法使用分配给它的全部RAM。如果我理解正确的话，它会在虚拟机的操作系统中进行连续的、不可分页的内存分配，然后将其位置报告给虚拟化主机：“分配给该虚拟机的这部分 RAM 现已被封锁，您现在可以重复使用它在别处”。

事实上，CPU #2 在该单个驱动程序中已忙了 22 秒，这一事实向我表明，RAM 可能会出现一些短缺：要么虚拟机需要已膨胀的内存，而虚拟化主机无法将其返还给内存。及时的方式，或者虚拟化主机在其他地方需要更多的 RAM，并且拼命地试图从虚拟机中获取更多的 RAM。

您应该与虚拟化主机的管理员联系，并让他们检查主机的内存统计信息。如果预计某些虚拟机在其他虚拟机忙碌时几乎总是处于空闲状态，则可能会过度使用一定数量的 RAM 分配（即，分配给虚拟机的 RAM 分配总和大于系统实际可用的内存）。但如果过度使用过多，就会破坏系统的整体性能。此错误可能是虚拟化主机承诺提供过多 RAM 但无法实际提供它的副作用。

如果统计数据显示虚拟化主机的 RAM 不足，那么快速修复可能是将一个或多个虚拟机迁移到另一台具有足够可用 RAM 的主机。如果不可能，则需要向主机系统添加更多实际物理 RAM，这可能需要停机。

Answer 1