持续关闭的服务器的诊断

持续关闭的服务器的诊断

我有一个 1U 超微型机箱,已经用了几年,而且过了保修期。最近它开始随机关机。它会保持运行状态,从几个小时到一个星期不等,然后停止响应。IPMI 控制台显示它已打开,但它完全没有响应。

我非常想修复这台机器,因为所有者的预算非常有限。它目前装有 CentOS 7。

我所寻找的是:

  • IPMI 日志 - 空
  • 系统日志 - 无关
  • SAR-没什么有趣的
  • 硬件传感器 - 风扇开启,CPU 温度正常

我尝试过的:

  • 超微诊断 - (UEFI) 映像无法在此系统上正确启动
  • memtest+ - 运行 24 小时,无任何故障

鉴于它有冗余电源,我认为这不是问题。剩下的就是 CPU 和主板。

  • 我还能运行哪些其他测试?
  • 我还可以查看哪些其他日志源?
  • 还有什么可能失败?

编辑:

启动该机器并让它运行直到停止(12 小时?)。IPMI 窗口显示它卡在了所有设备的启动页面上。

在此处输入图片描述

它已经启动并运行。这让我认为这是主板问题。没有插入任何 USB 设备,而且它确实卡住了。

答案1

我不会完全排除 PSU。如果它们是多余的,您可以尝试只使用一个,然后再使用另一个。

你能买到替换的 CPU 吗?二手 Xeon 非常便宜,你以后还可以卖掉它们。如果是多 CPU 系统,请尝试移除所有 CPU,只留下一个。

系统是否有单独的、可更换的 CPU VRM?

很可能是主板问题,但这可能意味着机器坏了。

答案2

使用消除法。每次取出一个组件:

  1. 测试是否在不拆下每个内存芯片的情况下崩溃。如果没有崩溃,那么就是你拆下的内存芯片的问题

  2. 如果不是内存问题,请用临时备用硬盘替换硬盘,或者在需要检查硬盘时从活动 USB 启动。如果它没有关机,那么就是硬盘问题

  3. 如果 CPU 是可拆卸的,那么你可以尝试在没有每个 CPU 的情况下运行

  4. 以同样的方式消除电源

  5. 如果 NIC 卡是可拆卸的,则消除

  6. 如果经过所有这些测试之后问题仍然存在,那么主板很可能烧坏了。

答案3

我知道我回复晚了,但对于将来遇到这种情况的人来说。我对 SuperMicro 服务器有很多经验。如果你想绝对排除 PSU 和 PDB,请购买 PSU 测试仪。它便宜且易于使用。我在下面链接了一个来自亚马逊的测试仪,但它们在 eBay 上更便宜。

插入主 24 针 ATX 连接器,设备即可通电。如果 PSU 测试仪在一段时间后关闭,则表明问题出在电源上。如果电源仍然亮着,则可以继续检查问题是否出在 CPU、MOBO 或 DIMM 上。通常,CPU 或 DIMM 错误会在 SEL 上发出错误。

不过,为了安全起见,正如@John M 提到的,使用最小配置(仅 1 个 CPU 和 1 个 DIMM)启动服务器以排除 DIMM。如果服务器有 2 个 CPU,您可以在 CPU0 插槽中安装 1 个,然后交换它们,同时排除 CPU。我的猜测是,如果服务器随机崩溃,并且您已经排除了 PSU/PDB,并且它没有产生任何 SEL,那么很有可能是 MOBO。

祝 iso 测试好运!

https://www.amazon.com.au/Computer-PC-Tester-Connectors-Enclosure/dp/B076CLNPPK?th=1

答案4

检查 dmesg 是否存在内核崩溃等,此外 syslog 也可能会显示一些提示,假设它与操作系统有关

相关内容