Ubuntu Server 22.04 崩溃且没有任何日志

Ubuntu Server 22.04 崩溃且没有任何日志

我正在使用 Ubuntu Server 22.04 运行私人服务器。这是一台旧 PC,我将其改造成家庭服务器,通过 docker 运行各种应用程序。

近 2 个月以来,它会随机停止响应任何网络请求。当它停止响应时,风扇和电源 LED(如 PCIe 和 RAM 指示灯)会保持亮起,但除此之外,它就像您关闭了它一样。恢复它的唯一方法是强制重置。从来没有关于崩溃的任何日志,journalctl --system显示直到最近一次崩溃的日志,然后突然停止,也是如此journalctl -k。此外,崩溃时间没有任何规律,它与崩溃本身一样随机。

从现在起 1.5 周前,崩溃前的正常运行时间突然减少到大约 3-6 小时,之前它会持续运行大约一周。

起初我以为是我的操作系统出了问题,所以我从之前的 Debian headless 切换到 Ubuntu Server 22.04,但它仍然崩溃了。我已经用万用表检查了电源,崩溃前后的每个电压都在应有的水平,所以我排除了这种可能性。然后我用 memtest 检查了我的 RAM,果然,它有很多错误,所以我用我闲置的备用 RAM 替换了它,并检查了:没有​​错误。在我更换它之后,它仍然崩溃了两次。之后我更换了我的 SSD,使用 clonezilla 移动安装。今天我醒来时它又崩溃了。

我现在真的不知道还有什么可以测试,我有一个备用的 PSU,我可以换进去测试它,除此之外的任何东西(CPU/主板)都必须订购才能排除它。

最让我恼火的是没有任何日志,事实上它只是在(例如)凌晨 3:35 停止记录并且不响应。在检查容器日志时,我发现 nginx 和其他一些容器的运行时间会比这长一点,nginx 一直处理请求直到凌晨 3:53,然后一切都停止了。docker 中从来没有任何崩溃日志,它只是表现得像你拔掉了插头,但风扇和电源 LED 仍然亮着。

编辑:忘记了系统规格:

  • 中央处理器 - Ryzen 5 1600X
  • GPU - GTX 1080
  • RAM - G.Skill Aegis 16GB DDR4-2666(之前)、G.Skill Fortis 32GB DDR4-2400(现在)
  • NVMe SSD - Patriot P300 256GB(之前)、Samsung 960 Evo 250GB(现在)
  • PSU - 550W 插入 300VA UPS

相关内容