如何修复“BUG：软锁定 - CPU#0 卡住 17163091968 秒”？

Question 1

感谢所有评论者。我想我找到了答案。至少在 Ubuntu 的内核版本 2.6.32-30-server 中似乎有一个计时错误。这个错误有时 (?) 会在机器达到大约 200..210 天的正常运行时间时杀死它们。实际上，停止并不是在达到限制后立即发生的，而是由某些操作触发的（在我的情况下：）apt-get install ...。

注意：200 天约为 2^32 乘以 1/250 秒，250 是 CONFIG_HZ 的默认值。

目前，我还没有找到有关该问题是否已在较新的内核中得到修复的数据。但我知道它似乎不会影响较旧的内核（2.6.32-26-server）。根据所有这些信息，我推测如果尚未修复，可以通过以下方式避免：

每 190 天启动一次机器（对于内核升级来说，这是一个好主意）
将 CONFIG_HZ 调整为 100，这样每 497 天就会发生一次。然而，这可能会产生意想不到的副作用，尤其是在虚拟环境中。而且它不会解决问题。

以下是错误报告适用于 Ubuntu。

Answer

感谢所有评论者。我想我找到了答案。至少在 Ubuntu 的内核版本 2.6.32-30-server 中似乎有一个计时错误。这个错误有时 (?) 会在机器达到大约 200..210 天的正常运行时间时杀死它们。实际上，停止并不是在达到限制后立即发生的，而是由某些操作触发的（在我的情况下：）apt-get install ...。

注意：200 天约为 2^32 乘以 1/250 秒，250 是 CONFIG_HZ 的默认值。

目前，我还没有找到有关该问题是否已在较新的内核中得到修复的数据。但我知道它似乎不会影响较旧的内核（2.6.32-26-server）。根据所有这些信息，我推测如果尚未修复，可以通过以下方式避免：

每 190 天启动一次机器（对于内核升级来说，这是一个好主意）
将 CONFIG_HZ 调整为 100，这样每 497 天就会发生一次。然而，这可能会产生意想不到的副作用，尤其是在虚拟环境中。而且它不会解决问题。

以下是错误报告适用于 Ubuntu。

Question 2

这实际上是一个内核错误，已通过以下内核提交修复：

http://git.kernel.org/?p=linux/kernel/git/tip/tip.git;a=commit;h=4cecf6d401a01d054afc1e5f605bcbfe553cb9b9

您可以在 LKML 中搜索以下标题（不能发布超过 2 个链接）：[稳定] 2.6.32.21 - 与正常运行时间相关的崩溃？

这是带来内核修复的 LP# 错误：

https://bugs.launchpad.net/ubuntu/+source/linux/+bug/902317

升级到 lucid-updates 中的最新内核应该可以彻底解决这个问题。

高血压

Answer