如何调试重启是软件原因还是硬件原因？

Question 1

使用“瓦特增加？”更密切地监控系统的功耗。瓦特表使人们更加确信这些重启是由电源上启动的过流保护 (OCP) 引起的。

当询问为什么启动 15 分钟后会出现功耗增加的情况时，serverfault 给出的答案是，启动 15 分钟后，所有 74 个驱动器可能同时开始运行其自动离线 SMART（硬盘驱动器的自我监控、分析和报告技术）测试。

接下来的尝试是禁用运行自动离线测试smartctl --offlineauto=off /dev/sdx：由于现在已经 20 小时不再出现功耗峰值或重新启动，初步结论是驱动器运行定期离线 SMART 测试的设置是原因。

Answer

使用“瓦特增加？”更密切地监控系统的功耗。瓦特表使人们更加确信这些重启是由电源上启动的过流保护 (OCP) 引起的。

当询问为什么启动 15 分钟后会出现功耗增加的情况时，serverfault 给出的答案是，启动 15 分钟后，所有 74 个驱动器可能同时开始运行其自动离线 SMART（硬盘驱动器的自我监控、分析和报告技术）测试。

接下来的尝试是禁用运行自动离线测试smartctl --offlineauto=off /dev/sdx：由于现在已经 20 小时不再出现功耗峰值或重新启动，初步结论是驱动器运行定期离线 SMART 测试的设置是原因。

Question 2

首先，72 个硬盘驱动器很多（我最大的机器只有 24 个……并且有 1200W 电源）我希望您使用的是交错旋转。

您可能会看到驱动器开始离线数据收集。这可以解释用电量的增加。这也意味着，如果您要实际使用驱动器，您可能会将功耗至少提高到同样高。

您的驱动器规格表显示 12V 电源轨上的峰值电流为 2A。你的电源声称它可以在 12V 电源轨上提供 87.5A 的电流。因此，您可以很容易地超过这个值，特别是因为其他组件也需要其中一些。您可能需要在该轨道上安装一个电压表（如果可能的话，还有电流表），看看是否发生了这种情况。

我将继续猜测答案是“是”。与驱动器数量相比，您运行的供应量很小。例如，我们使用的系统构建器制造了具有 1400W 电源的 45 驱动器 JBOD，而且您还有更多驱动器和一台计算机。当然，该 JBOD 可能指定用于 15K SAS 驱动器。但您还有额外的 27 个驱动器。

调试软件崩溃（这可能不是）

您想要尝试查找软件崩溃的主要事情是获取内核日志直到最后一秒。如果您有串行端口，最好的选择是连接另一台计算机并使用串行控制台（将 console=/dev/ttyS0,57600 添加到内核命令行）。第二好的方法是使用 netconsole，在机器启动后（但在 16 分钟结束之前）您可以轻松配置它：

首先，在其他机器上运行nc -l -u -p 1234.然后，在总是崩溃的机器上，modprobe netconsole netconsole=@/eth0,1234@some-ip/.您应该立即在 netcat 窗口中看到一些控制台消息：

[508073.196581] console [netcon0] enabled
[508073.197026] netconsole: network logging started

当然，你的时间戳会低得多。

Answer

首先，72 个硬盘驱动器很多（我最大的机器只有 24 个……并且有 1200W 电源）我希望您使用的是交错旋转。

您可能会看到驱动器开始离线数据收集。这可以解释用电量的增加。这也意味着，如果您要实际使用驱动器，您可能会将功耗至少提高到同样高。

您的驱动器规格表显示 12V 电源轨上的峰值电流为 2A。你的电源声称它可以在 12V 电源轨上提供 87.5A 的电流。因此，您可以很容易地超过这个值，特别是因为其他组件也需要其中一些。您可能需要在该轨道上安装一个电压表（如果可能的话，还有电流表），看看是否发生了这种情况。

我将继续猜测答案是“是”。与驱动器数量相比，您运行的供应量很小。例如，我们使用的系统构建器制造了具有 1400W 电源的 45 驱动器 JBOD，而且您还有更多驱动器和一台计算机。当然，该 JBOD 可能指定用于 15K SAS 驱动器。但您还有额外的 27 个驱动器。

调试软件崩溃（这可能不是）

您想要尝试查找软件崩溃的主要事情是获取内核日志直到最后一秒。如果您有串行端口，最好的选择是连接另一台计算机并使用串行控制台（将 console=/dev/ttyS0,57600 添加到内核命令行）。第二好的方法是使用 netconsole，在机器启动后（但在 16 分钟结束之前）您可以轻松配置它：

首先，在其他机器上运行nc -l -u -p 1234.然后，在总是崩溃的机器上，modprobe netconsole netconsole=@/eth0,1234@some-ip/.您应该立即在 netcat 窗口中看到一些控制台消息：

[508073.196581] console [netcon0] enabled
[508073.197026] netconsole: network logging started

当然，你的时间戳会低得多。

Question 3

根据您的输出last -x，似乎每 17-18 分钟重新启动一次，因此您首先需要检查是否有任何脚本或 cron 设置为重新启动？如果没有，请阅读下文。

您可以签入与硬件相关的错误dmesg | tail，或者可以在您通常在服务器中运行的特定应用程序tail -f /var/log/messages或tail -f /var/log/syslog（基于 debian）的日志中找到与软件相关的日志。

如果您想快速检查是软件问题还是硬件问题，那么您应该检查top。

hi  --  Hardware IRQ
          The amount of time the CPU has been servicing hardware interrupts.

si  --  Software Interrupts
          The amount of time the CPU has been servicing software interrupts.

在此输入图像描述

此外，您还必须检查顶部的 %wa 值，以防万一您的硬盘出现问题，那么该值将会增加。所以你可以检查使用hdparam -T /dev/sdx和其他工具。但这还不是最终的，可能还有很多方法可以检查。

Answer

根据您的输出last -x，似乎每 17-18 分钟重新启动一次，因此您首先需要检查是否有任何脚本或 cron 设置为重新启动？如果没有，请阅读下文。

您可以签入与硬件相关的错误dmesg | tail，或者可以在您通常在服务器中运行的特定应用程序tail -f /var/log/messages或tail -f /var/log/syslog（基于 debian）的日志中找到与软件相关的日志。

如果您想快速检查是软件问题还是硬件问题，那么您应该检查top。

hi  --  Hardware IRQ
          The amount of time the CPU has been servicing hardware interrupts.

si  --  Software Interrupts
          The amount of time the CPU has been servicing software interrupts.

在此输入图像描述

此外，您还必须检查顶部的 %wa 值，以防万一您的硬盘出现问题，那么该值将会增加。所以你可以检查使用hdparam -T /dev/sdx和其他工具。但这还不是最终的，可能还有很多方法可以检查。

Question 4

您必须检查 CPU 温度，您可以使用以下命令检查系统日志：- grep 'temperature' /var/log/syslog 如果上述命令输出为空，则您必须安装该lm-sensors软件包并运行，sudo sensors-detect对所有是/否问题选择“是”。在传感器检测结束时，将显示需要加载的模块列表。输入“yes”让传感器检测将这些模块插入到 /etc/modules 中，或者自己编辑 /etc/modules 。接下来，运行sudo service module-init-tools restart这将读取您在步骤 3 中对 /etc/modules 所做的更改，并将新模块插入到内核中。接下来，您应该测试 lm 传感器是否正常工作。运行sensors命令并检查是否有可能的后期输出。我认为您需要在系统启动时间 15 分钟后运行此命令，因为每次在 17 点到 18 点之间重新启动。

Answer

您必须检查 CPU 温度，您可以使用以下命令检查系统日志：- grep 'temperature' /var/log/syslog 如果上述命令输出为空，则您必须安装该lm-sensors软件包并运行，sudo sensors-detect对所有是/否问题选择“是”。在传感器检测结束时，将显示需要加载的模块列表。输入“yes”让传感器检测将这些模块插入到 /etc/modules 中，或者自己编辑 /etc/modules 。接下来，运行sudo service module-init-tools restart这将读取您在步骤 3 中对 /etc/modules 所做的更改，并将新模块插入到内核中。接下来，您应该测试 lm 传感器是否正常工作。运行sensors命令并检查是否有可能的后期输出。我认为您需要在系统启动时间 15 分钟后运行此命令，因为每次在 17 点到 18 点之间重新启动。

如何调试重启是软件原因还是硬件原因？

答案1

答案2

调试软件崩溃（这可能不是）

答案3

答案4

相关内容