我有一个相对较新的系统,它运行了大约 1 个月,没有出现问题,但大约 1 周前它开始完全冻结。冻结非常严重,我无法做任何事情,任何 SysRq 都无法做,唯一能做的就是使用电源按钮进行循环。
特征:
- MB: 华硕 TUF Gaming Z790-Plus WiFi
- 中央处理器:英特尔酷睿 i9-14900F 台式机处理器 24 核
- 内存:CORSAIR VENGEANCE DDR5 内存 96GB (2x48GB) 5600MHz CL40 英特尔 XMP iCUE
- 图形处理器: 技嘉 GV-N1030D4-2GL GeForce GT 1030 低调 D4 2G
- 冷却: NZXT Kraken 240 - RL-KN-240-B1 - 240mm AIO CPU 液体冷却器
- 硬盘: WD_BLACK 2TB SN850X NVMe 内置游戏 SSD 固态硬盘(带散热器)
我猜想我遇到的是物理组件问题,但不确定是哪一个。我确实查看了其他帖子,例如 Ubuntu 22.04.2 LTS 随机且永久冻结和当我不确定是硬件问题还是软件问题时,该如何诊断我的问题?
但我无法按照这些步骤操作(大多数是 Ubuntu 桌面,可能由于我没有某些组件而有所不同)或者它们没有引导我到任何地方。
当进入 Grub -> Root(开启网络)时,系统似乎运行正常,因为它根本没有崩溃,而且长时间保持正常运行。因此,一个罪魁祸首可能是视频卡,目前还不确定。此外,如果我让系统关闭大约 20 分钟,它往往会再运行一个小时左右,但如果它冻结并且我尝试重新启动,很多时候它会立即冻结。它也冻结了运行“正常分辨率”的 Live Ubuntu 磁盘。它没有冻结(至少不是很快)使用“尝试 Ubuntu”的“安全图形”选项
已经进行了一些检查:
- 主板 - 没有明显问题(电容器爆裂或损坏)
- 主板 - 我更新了 BIOS(华硕使用 EZ Flash) - 问题仍然存在
- CPU - 我成功进行了“s-tui”测试
- CPU - 传感器命令显示所有核心温度约为 35C
- CPU - CPU 上的温度约为 30C,但华硕显示 CPU 封装温度为 54,核心温度为 40。冷却装置有一个数字 LCD,显示液体温度,始终显示在 30C 左右
- 清理 - apt 更新、升级、清理、自动删除
- RAM - 我确实创建了一个 MemTest86 可启动项并执行了“测试内存”,测试完成后未在所有 96 GB RAM 上发现任何错误
- RAM - 我确实成功运行了“memtester 6G 5”
- HDD - nvme smart-log /dev/nvme0n1 - 没有显示任何明显迹象
- HDD - 华硕在 BIOS 中有一个智能测试 - 成功运行
- 视频 - 我尝试了另一张更旧的视频卡,但仍然冻结。
- LOG-/var/crash-空
- LOG — /var/log/syslog — 不确定在那里寻找什么...
- LOG - /var/log/dmesg - 不知道要查找什么
我注意到的一件事是,在 Bios 中以及执行 root/命令提示符操作时,它从不冻结。但是一旦我在 X 模式下启动 Ubuntu,它就会随机冻结而没有任何警告...
还有其他想法吗?
答案1
经过多次尝试和错误,系统已经运行了几天。我彻底重新安装了 Ubuntu,并彻底清除了硬盘上的数据,以确保万无一失。问题如下:
我重新安装了 Ubuntu(备份后),并彻底清除了硬盘。这仍然无法解释为什么当我从 LIVE USB 启动并尝试 Ubuntu 时它会冻结,但我仍然觉得有必要将其从列表中删除
即使 MemTest 没有给出错误,我也移除了 1 根 RAM。现在,服务器暂时只在 48 GB RAM 上运行。我将在几天后检查,看看是否用另一根 RAM 替换它,然后一切就清楚了。或者可能是主板的问题(尽管 RAM 是从华硕网站购买的,规格完全一样),但主板可能以某种方式限制了 RAM。目前还不确定。
重新安装所有东西后,我一安装并启动 Wayland 上的 AnyDesk,系统就再次冻结了。我卸载了 AnyDesk,系统似乎运行顺利。我正在寻找远程桌面解决方案,但 AnyDesk 似乎不适合,它的行为太过激进。我知道它可能可以在 Xorg 上运行,但我还是有点害怕把它放回去……
因此此时服务器已启动并运行。如果我发现任何额外内容,我会回来进行编辑。我希望这对其他人有所帮助。
谢谢你!