Solaris 11 随机崩溃

Question 1

当 Solaris 11 服务器崩溃时我会查看哪里：

dmesg | less
- 仔细阅读此内容，这里有线索，或者如果 dmesg 缓冲区已循环，请查看/var/adm/messages崩溃时的日志。
fmadm faulty
- 这将显示故障管理器认为有故障的任何设备，包括磁盘和 HBA、以及 NIC 等。
fmdump -eV
- 这将向您显示由故障管理系统识别的系统中的任何错误，无论它们是否导致某个硬件被标记为有故障。
如果有问题的磁盘是 zpool 的一部分，则zpool scrub在该池上运行，然后查看zpool status是否收到可能表明 HBA 或磁盘存在问题的校验和错误。
通过运行确保转储配置设置为捕获故障转储dumpadm。其输出应该显示 savecore 已启用，并且崩溃将保留在/var/crash.如果您的系统在今天早上的崩溃中留下了崩溃转储/var/crash，那么您可以查看崩溃的 pstack，并可能获得一些有关根本原因的指示。

这些步骤应该可以让您更接近找出系统崩溃的原因。

Answer

当 Solaris 11 服务器崩溃时我会查看哪里：

dmesg | less
- 仔细阅读此内容，这里有线索，或者如果 dmesg 缓冲区已循环，请查看/var/adm/messages崩溃时的日志。
fmadm faulty
- 这将显示故障管理器认为有故障的任何设备，包括磁盘和 HBA、以及 NIC 等。
fmdump -eV
- 这将向您显示由故障管理系统识别的系统中的任何错误，无论它们是否导致某个硬件被标记为有故障。
如果有问题的磁盘是 zpool 的一部分，则zpool scrub在该池上运行，然后查看zpool status是否收到可能表明 HBA 或磁盘存在问题的校验和错误。
通过运行确保转储配置设置为捕获故障转储dumpadm。其输出应该显示 savecore 已启用，并且崩溃将保留在/var/crash.如果您的系统在今天早上的崩溃中留下了崩溃转储/var/crash，那么您可以查看崩溃的 pstack，并可能获得一些有关根本原因的指示。

这些步骤应该可以让您更接近找出系统崩溃的原因。

Question 2

[不再是 Solaris 专家，但熟悉 Linux 硬件] 如果是一个驱动器，我会怀疑其中一个出现故障。但所有这些都非常可疑。也许控制器有问题？

我最近看到的大多数崩溃都是由于 CPU 过热（风扇故障、污垢、空气循环堵塞）、显卡驱动程序（特别是 nVidia）导致的第二次挂起造成的。过去的一些麻烦点是停电，甚至是微停电。

Answer

[不再是 Solaris 专家，但熟悉 Linux 硬件] 如果是一个驱动器，我会怀疑其中一个出现故障。但所有这些都非常可疑。也许控制器有问题？

我最近看到的大多数崩溃都是由于 CPU 过热（风扇故障、污垢、空气循环堵塞）、显卡驱动程序（特别是 nVidia）导致的第二次挂起造成的。过去的一些麻烦点是停电，甚至是微停电。

Question 3

少量的软错误可以安全地忽略。 Solaris 只是迂腐地记录和报告其他操作系统甚至没有注意到的一切。

监视错误计数（重新启动时重置）并检查模式。

另请注意，一个设备上的软错误往往会导致同一总线上其他驱动器上的计数也增加。不过，您也会有一个明显的赢家，其中一个驱动器的错误比其他驱动器多很多倍。

我从未发现驱动器错误计数（软错误或硬错误）可以指示 HBA 故障，但这可能只是我的情况。 HBA 故障通常显示为其他消息，例如 mpt 错误。

Answer

少量的软错误可以安全地忽略。 Solaris 只是迂腐地记录和报告其他操作系统甚至没有注意到的一切。

监视错误计数（重新启动时重置）并检查模式。

另请注意，一个设备上的软错误往往会导致同一总线上其他驱动器上的计数也增加。不过，您也会有一个明显的赢家，其中一个驱动器的错误比其他驱动器多很多倍。

我从未发现驱动器错误计数（软错误或硬错误）可以指示 HBA 故障，但这可能只是我的情况。 HBA 故障通常显示为其他消息，例如 mpt 错误。

相关内容