Ubuntu 10.04.2 LTS 服务器 - 间歇性挂起，日志文件中未显示原因

Question 1

为了完整起见，我想我应该就此打住。经过一年多的这种行为，服务器终于死机了。只有在尝试（并失败）重建 RAID 时，我们才发现不是一块硬盘坏了，而是两块硬盘坏了。

该服务器问题的确切原因仍然未知，但（由于我对 Linux 的了解仍然有限）我怀疑这两个驱动器出现问题已有一段时间，而尝试使用损坏的驱动器会间歇性地导致服务器崩溃/重启。

我们的最终解决方案是使用几乎完全相同的配置但使用全新的硬件从头开始重建服务器。我们所做的唯一重大配置更改是使用 ext4 而不是 xfs 作为文件系统。该机器已经运行了几个月，没有出现任何问题。

我之所以回答这个问题，是因为对我们来说，驱动器故障似乎是原因，更换所有硬件是解决问题的最佳方法。话虽如此，我不知道这个答案对大多数人来说是否太有帮助。

Answer

为了完整起见，我想我应该就此打住。经过一年多的这种行为，服务器终于死机了。只有在尝试（并失败）重建 RAID 时，我们才发现不是一块硬盘坏了，而是两块硬盘坏了。

该服务器问题的确切原因仍然未知，但（由于我对 Linux 的了解仍然有限）我怀疑这两个驱动器出现问题已有一段时间，而尝试使用损坏的驱动器会间歇性地导致服务器崩溃/重启。

我们的最终解决方案是使用几乎完全相同的配置但使用全新的硬件从头开始重建服务器。我们所做的唯一重大配置更改是使用 ext4 而不是 xfs 作为文件系统。该机器已经运行了几个月，没有出现任何问题。

我之所以回答这个问题，是因为对我们来说，驱动器故障似乎是原因，更换所有硬件是解决问题的最佳方法。话虽如此，我不知道这个答案对大多数人来说是否太有帮助。

Question 2

我本想将此作为评论发布，但我缺乏声誉。

话虽如此，但从随意查看日志中唯一能脱颖而出的就是 nouveau。如果是我，我会禁用 nouveau。这些说明应该可以带你到那里。

您可能还会发现以下 severfault 帖子很相关，而且可能很有帮助，即使只是为了向您展示一些可用于帮助排除故障的工具。

如何诊断 Ubuntu 系统重启后冻结

（如何）我可以使用 syslog 来诊断神秘的崩溃？

Ubuntu 10.10 Maverick Server 系统会随机锁定（i7 930；12GB RAM）

祝你好运！

Answer

我本想将此作为评论发布，但我缺乏声誉。

话虽如此，但从随意查看日志中唯一能脱颖而出的就是 nouveau。如果是我，我会禁用 nouveau。这些说明应该可以带你到那里。

您可能还会发现以下 severfault 帖子很相关，而且可能很有帮助，即使只是为了向您展示一些可用于帮助排除故障的工具。

如何诊断 Ubuntu 系统重启后冻结

（如何）我可以使用 syslog 来诊断神秘的崩溃？

Ubuntu 10.10 Maverick Server 系统会随机锁定（i7 930；12GB RAM）

祝你好运！

Question 3

目前还不清楚宕机的具体含义。我知道您提到了远程控制，因此动手操作比较困难。但是，对于此类崩溃，了解机器是否完全冻结至关重要。当机器崩溃时，控制台是否还能工作（我说的“工作”是指您能否按 Enter 键，是否显示密码提示，您是否能登录）？对于数据中心的机器，将某种控制台放入其中确实是一个好主意。以下是便宜的选择：

http://international.opengear.com/SD4001_Single_Port_Advanced_Device_Server_p/sd4001.htm

这需要一些设置来配置串行控制台部分。更简单但更昂贵的解决方案是 KVM。一旦您确定物理控制台在这些中断期间是否冻结，它应该有助于确定后续步骤。如果物理控制台也冻结，则很可能是您的硬件存在问题。如果盒子还没有 ECC 内存，您应该考虑测试或更换它。如果问题只是 RAID 卡等子系统的驱动程序错误，控制台不太可能锁定。如果控制台在这些中断期间确实有响应并且您可以登录，您应该尝试运行一些命令。如果问题相当频繁，您可能只想设置一个 cron 作业来每分钟捕获这些输出：

lsof -n # 将列出系统上所有打开的 FD，希望显示是否有东西正在使用所有资源

netstat -an ; netstat -s # 任何由网络引起的问题都应显示在这里，例如缓冲区不足

ps -eaf # 一般进程堆积？

为输出添加日期标记，然后尝试找到崩溃前的最后一个输出。如果是子系统的问题，从此处的输出中可以看出。

Answer

目前还不清楚宕机的具体含义。我知道您提到了远程控制，因此动手操作比较困难。但是，对于此类崩溃，了解机器是否完全冻结至关重要。当机器崩溃时，控制台是否还能工作（我说的“工作”是指您能否按 Enter 键，是否显示密码提示，您是否能登录）？对于数据中心的机器，将某种控制台放入其中确实是一个好主意。以下是便宜的选择：

http://international.opengear.com/SD4001_Single_Port_Advanced_Device_Server_p/sd4001.htm

这需要一些设置来配置串行控制台部分。更简单但更昂贵的解决方案是 KVM。一旦您确定物理控制台在这些中断期间是否冻结，它应该有助于确定后续步骤。如果物理控制台也冻结，则很可能是您的硬件存在问题。如果盒子还没有 ECC 内存，您应该考虑测试或更换它。如果问题只是 RAID 卡等子系统的驱动程序错误，控制台不太可能锁定。如果控制台在这些中断期间确实有响应并且您可以登录，您应该尝试运行一些命令。如果问题相当频繁，您可能只想设置一个 cron 作业来每分钟捕获这些输出：

lsof -n # 将列出系统上所有打开的 FD，希望显示是否有东西正在使用所有资源

netstat -an ; netstat -s # 任何由网络引起的问题都应显示在这里，例如缓冲区不足

ps -eaf # 一般进程堆积？

为输出添加日期标记，然后尝试找到崩溃前的最后一个输出。如果是子系统的问题，从此处的输出中可以看出。

Ubuntu 10.04.2 LTS 服务器 - 间歇性挂起，日志文件中未显示原因

简要说明：

注意事项/背景：

更详细一点：

答案1

答案2

答案3

相关内容