诊断计划外停机

诊断计划外停机

我遇到了服务器因某种未知原因而关闭的问题。每次发生这种情况时,我都会检查日志,但找不到任何特别有趣的内容来说明其出现故障的原因。

谁能建议我应该做些什么来帮助诊断问题?

答案1

听起来像是硬件问题。

您在系统中添加过任何东西吗?例如 RAM、新 GPU、HDD、PCI 卡?

身体的:

  • 检查所有电缆。
  • 检查 RAM 的安装。
  • 检查所有 PCI 的安装。
  • 重新安装 CPU(如果没有其他效果)。
  • 检查外部和内部电源线。

[编辑]:正如所指出的@冯布兰德
确保冷却等,并根据需要进行清理。

如果不是,请通过以下方式检查状态lm_传感器例如,添加临界值警报系统。在这里您还可以检查风扇状态 - 也许还有电压。如果没有显示电压,您可以检查 BIOS 是否报告了该电压。然后检查硬件上的文件以确保级别正确。请参阅下面的电压表检查。


更新BIOS。

你说:

[…]找不到任何特别有趣的东西来说明它为什么会下降。

但是还有其他数据吗

/var/log/messages
/var/log/debug
/var/log/kern.log
...

这表明系统在启动时出现问题等?

你有麦克塞洛格跑步 (机器检查异常)?如果没有安装它。

使用smartmontools检查HDD SMART数据。运行内存测试、压力测试等。

dmesg运行测试时进行检查。

使用众多启动 CD 之一,例如:

并对您认为合适的它们进行测试。

如果是服务器服务器-位于越位位置,请检查是否有管理员使用电源插座给手机充电。


[编辑2]:电源检查。
仅对 PSU 检查进行额外说明。板外检查可能是件好事,在这种情况下,如果是 ATX,您必须记住走捷径打开,(通常为绿色),接地,(通常为黑色),使 PSU 进入舞台。(带备用电线、回形针等)

然后,您可以通过将一个电压表连接器接地(黑色)并将另一个连接到彩色电压表连接器进行测量。然后,如果您读取的正值超出了 ±5% 范围,或者负值超出了 ±10%,那么您通常就会遇到麻烦。 (4.1.4 电压容差)。 12V 最容易检查,应在 11.40 至 12.60 伏范围内。在典型的 ATX 上,这将是:

* Yellow: +12  V;  value ⊆ { 11.40 , …,  12.60 }
* Red   : + 5  V;  value ⊆ {  4.75 , …,   5.50 }
* Orange: + 3.3V;  value ⊆ {  3.135, …,   3.465}
* Brown : + 3.3V;  value ⊆ {  3.135, …,   3.465}
* Blue  : -12  V;  value ⊆ {-13.2  , …, -10.8  }

检查 PSU 供应商的文件或更通用的规格和您的主板规格。


相关内容