如何调查服务器崩溃是由硬件还是软件引起的?

如何调查服务器崩溃是由硬件还是软件引起的?

我已经运行家用服务器多年了,但最近它开始出现故障。发生的事情是,服务器继续运行,我听到风扇旋转,灯保持亮起,屏幕“保持亮起”。但 SSH 连接变得不可用,服务器不再在网络上,并且与控制台连接的屏幕仍然输出控制台,但屏幕上随机显示蓝点。

我现在已经尝试了几种方法,但完全不知道下一步该怎么做。我尝试过:

  • 查看 /var/log 中的所有日志
  • 从 ubuntu 14.06 重新安装到 20.06
  • 清除整个服务器上的灰尘并更新 CPU 上的冷却膏 + 并使用sensors命令进行监控以确保不存在过热问题。

还有一些其他可能有用的信息:

  • 服务器:HP Proliant 微型服务器(HPE Proliant N36L)
  • 最初是随 Windows Server 一起安装的
  • 我在两个安装中都使用 ldmtool 在服务器上以 raid 模式安装 2x 2TB 磁盘。

很高兴提供更多可能有用的信息!并期待任何有助于调试和查找问题的建议!

相关内容