我束手无策。什么可能导致我的服务器随机硬重置？（似乎与 ZFS 有关）

Question 1

由于我也曾陷入过类似的困境，所以我想发布一些最终帮助我的东西。它可能与您的情况并不完全相关，但也许其他可怜的人可以偶然发现并找到安慰。

我有一台 ZFS 备份服务器，它在我公司的服务器群中运行 rsnapshot（带轮换的 rsync）。每 2-3 周，服务器就会自行重置。

正如 @tjikkun 指出的那样，您应该尝试获取一些恐慌信息。就我而言，这是一个“恐慌字符串：双重错误”错误，我会在转储中找到它，以及与递归 ZFS 例程中的堆栈溢出相关的内容。

有一些与此相关的信息，但似乎只适用于 32 位处理器。然而，我在 64 位上运行，因此我找不到任何相关信息。

32 位错误仍然暗示kern.kstack_pages在某些情况下需要增加内核设置。就我而言，这就是诀窍。我将其添加kern.kstack_pages=16到/boot/loader.conf，重新启动服务器，此后（6 个月内）再也没有发生过崩溃。这个设置有帮助是有道理的，因为我遇到的崩溃是由于 ZFS 遇到堆栈限制而发生的。

再次强调，这不一定与您的具体情况相关，但我很难找到这些信息，我希望其他人会发现它有用。

Answer

由于我也曾陷入过类似的困境，所以我想发布一些最终帮助我的东西。它可能与您的情况并不完全相关，但也许其他可怜的人可以偶然发现并找到安慰。

我有一台 ZFS 备份服务器，它在我公司的服务器群中运行 rsnapshot（带轮换的 rsync）。每 2-3 周，服务器就会自行重置。

正如 @tjikkun 指出的那样，您应该尝试获取一些恐慌信息。就我而言，这是一个“恐慌字符串：双重错误”错误，我会在转储中找到它，以及与递归 ZFS 例程中的堆栈溢出相关的内容。

有一些与此相关的信息，但似乎只适用于 32 位处理器。然而，我在 64 位上运行，因此我找不到任何相关信息。

32 位错误仍然暗示kern.kstack_pages在某些情况下需要增加内核设置。就我而言，这就是诀窍。我将其添加kern.kstack_pages=16到/boot/loader.conf，重新启动服务器，此后（6 个月内）再也没有发生过崩溃。这个设置有帮助是有道理的，因为我遇到的崩溃是由于 ZFS 遇到堆栈限制而发生的。

再次强调，这不一定与您的具体情况相关，但我很难找到这些信息，我希望其他人会发现它有用。

Question 2

您可以采取以下步骤来缩小范围：

崩溃时重启

如果已打开崩溃时自动重启，您可能需要将其关闭以进行测试。如果运行，sysctl kernel.panic您应该会获得当前值。如果是0，则表示已关闭，任何其他值都是在重新启动前等待的秒数。sysctl -w kernel.panic=0如果尚未关闭，则将其关闭。如果将其设置为0并且您的服务器仍然自行重启，我真的会认为这是一个硬件问题。如果这停止了自动重启，那么我们就知道重启是由看门狗定时器引起的。

读取内核恐慌

当这停止重启并且你很幸运时，屏幕会显示一些恐慌信息。如果是这种情况并且你想要崩溃的完整信息，你需要设置串行日志记录或网络控制台。

屏幕上没有任何内容

如果你不那么幸运，你可能需要配置 kdump看看这是否可以给你提供任何信息。

其他可以尝试的事情

您可能希望返回到非常早期的 0.7.x 版 ZFS，看看是否可以重现该问题。另一个选择是尝试 0.8.0-rc2，但如果您非常重视数据，请谨慎使用预发布版本。我不希望数据丢失，但您最好谨慎行事。

Answer

您可以采取以下步骤来缩小范围：

崩溃时重启

如果已打开崩溃时自动重启，您可能需要将其关闭以进行测试。如果运行，sysctl kernel.panic您应该会获得当前值。如果是0，则表示已关闭，任何其他值都是在重新启动前等待的秒数。sysctl -w kernel.panic=0如果尚未关闭，则将其关闭。如果将其设置为0并且您的服务器仍然自行重启，我真的会认为这是一个硬件问题。如果这停止了自动重启，那么我们就知道重启是由看门狗定时器引起的。

读取内核恐慌

当这停止重启并且你很幸运时，屏幕会显示一些恐慌信息。如果是这种情况并且你想要崩溃的完整信息，你需要设置串行日志记录或网络控制台。

屏幕上没有任何内容

如果你不那么幸运，你可能需要配置 kdump看看这是否可以给你提供任何信息。

其他可以尝试的事情

您可能希望返回到非常早期的 0.7.x 版 ZFS，看看是否可以重现该问题。另一个选择是尝试 0.8.0-rc2，但如果您非常重视数据，请谨慎使用预发布版本。我不希望数据丢失，但您最好谨慎行事。

我束手无策。什么可能导致我的服务器随机硬重置？（似乎与 ZFS 有关）

更新：

答案1

答案2

崩溃时重启

读取内核恐慌

屏幕上没有任何内容

其他可以尝试的事情

相关内容