Ubuntu Server 22.04 完全冻结

Ubuntu Server 22.04 完全冻结

我有一个相对较新的系统,它运行了大约 1 个月,没有出现问题,但大约 1 周前它开始完全冻结。冻结非常严重,我无法做任何事情,任何 SysRq 都无法做,唯一能做的就是使用电源按钮进行循环。

特征:

  • MB: 华硕 TUF Gaming Z790-Plus WiFi
  • 中央处理器:英特尔酷睿 i9-14900F 台式机处理器 24 核
  • 内存:CORSAIR VENGEANCE DDR5 内存 96GB (2x48GB) 5600MHz CL40 英特尔 XMP iCUE
  • 图形处理器: 技嘉 GV-N1030D4-2GL GeForce GT 1030 低调 D4 2G
  • 冷却: NZXT Kraken 240 - RL-KN-240-B1 - 240mm AIO CPU 液体冷却器
  • 硬盘: WD_BLACK 2TB SN850X NVMe 内置游戏 SSD 固态硬盘(带散热器)

我猜想我遇到的是物理组件问题,但不确定是哪一个。我确实查看了其他帖子,例如 Ubuntu 22.04.2 LTS 随机且永久冻结当我不确定是硬件问题还是软件问题时,该如何诊断我的问题?

但我无法按照这些步骤操作(大多数是 Ubuntu 桌面,可能由于我没有某些组件而有所不同)或者它们没有引导我到任何地方。

当进入 Grub -> Root(开启网络)时,系统似乎运行正常,因为它根本没有崩溃,而且长时间保持正常运行。因此,一个罪魁祸首可能是视频卡,目前还不确定。此外,如果我让系统关闭大约 20 分钟,它往往会再运行一个小时左右,但如果它冻结并且我尝试重新启动,很多时候它会立即冻结。它也冻结了运行“正常分辨率”的 Live Ubuntu 磁盘。它没有冻结(至少不是很快)使用“尝试 Ubuntu”的“安全图形”选项

已经进行了一些检查:

  • 主板 - 没有明显问题(电容器爆裂或损坏)
  • 主板 - 我更新了 BIOS(华硕使用 EZ Flash) - 问题仍然存在
  • CPU - 我成功进行了“s-tui”测试
  • CPU - 传感器命令显示所有核心温度约为 35C
  • CPU - CPU 上的温度约为 30C,但华硕显示 CPU 封装温度为 54,核心温度为 40。冷却装置有一个数字 LCD,显示液体温度,始终显示在 30C 左右
  • 清理 - apt 更新、升级、清理、自动删除
  • RAM - 我确实创建了一个 MemTest86 可启动项并执行了“测试内存”,测试完成后未在所有 96 GB RAM 上发现任何错误
  • RAM - 我确实成功运行了“memtester 6G 5”
  • HDD - nvme smart-log /dev/nvme0n1 - 没有显示任何明显迹象
  • HDD - 华硕在 BIOS 中有一个智能测试 - 成功运行
  • 视频 - 我尝试了另一张更旧的视频卡,但仍然冻结。
  • LOG-/var/crash-空
  • LOG — /var/log/syslog — 不确定在那里寻找什么...
  • LOG - /var/log/dmesg - 不知道要查找什么

我注意到的一件事是,在 Bios 中以及执行 root/命令提示符操作时,它从不冻结。但是一旦我在 X 模式下启动 Ubuntu,它就会随机冻结而没有任何警告...

还有其他想法吗?

答案1

经过多次尝试和错误,系统已经运行了几天。我彻底重新安装了 Ubuntu,并彻底清除了硬盘上的数据,以确保万无一失。问题如下:

  • 我重新安装了 Ubuntu(备份后),并彻底清除了硬盘。这仍然无法解释为什么当我从 LIVE USB 启动并尝试 Ubuntu 时它会冻结,但我仍然觉得有必要将其从列表中删除

  • 即使 MemTest 没有给出错误,我也移除了 1 根 RAM。现在,服务器暂时只在 48 GB RAM 上运行。我将在几天后检查,看看是否用另一根 RAM 替换它,然后一切就清楚了。或者可能是主板的问题(尽管 RAM 是从华硕网站购买的,规格完全一样),但主板可能以某种方式限制了 RAM。目前还不确定。

  • 重新安装所有东西后,我一安装并启动 Wayland 上的 AnyDesk,系统就再次冻结了。我卸载了 AnyDesk,系统似乎运行顺利。我正在寻找远程桌面解决方案,但 AnyDesk 似乎不适合,它的行为太过激进。我知道它可能可以在 Xorg 上运行,但我还是有点害怕把它放回去……

因此此时服务器已启动并运行。如果我发现任何额外内容,我会回来进行编辑。我希望这对其他人有所帮助。

谢谢你!

相关内容