我面临着一个非常奇怪的问题,关于一台服务器,它随机冻结/挂起,服务器上没有输出,并且不响应短键,并且需要冷启动,当使用冷启动启动时,启动屏幕上根本没有错误。
在重负载下它根本不会冻结,崩溃时 CPU 大约为 9-20%,平均负载大约为 2-5(12 核 CPU)和 128GB 内存
我们尝试检查日志,没有显示任何类似内核恐慌的内容,或者任何与问题本身相关的内容。
在冷启动后的所有冻结中,当我们检查日志时,我们确实看到正常的 OOM reaper 杀死了 php 进程(用户达到限制)但没有太严重的滥用,但总是在 OOM,有时当服务器在日志中冻结时你会看到当前时间,有时就像它在崩溃的当前时间之后显示几行旧日期,然后冻结。
日志中没有任何内容可以确定与软件相关,或者在重负载下,只是正常运行,这是一台从旧机器升级而来的机器,多年来一直稳定运行。冻结是随机的,可能是在服务器启动一周后,或者两天或三周后等等......
我们还尝试提取服务器冻结的 vmcore 转储,但仍然没有任何结果。
它只是冻结,没有屏幕输出,但服务器仍在运行但不可打印,无法访问 ssh,也没有 kvm,正如我所说,屏幕上根本没有显示任何输出。
这可能与硬件故障有关吗?我的暂停与 RAM 故障有关?
我对这个问题非常困惑。谢谢
答案1
- 确保温度良好,CPU/RAM/芯片组/磁盘,我假设您是 Linux 用户,因为 OOM,安装
lm-sensors
,并使用命令检查温度sensors
。 - 这是您的 RAM,运行 memtest86,请注意对 128GB 进行完整测试可能需要一周时间。
答案2
我们刚刚迁移到另一台服务器,但是经过大量搜索和尝试调试后,看起来硬件问题与主板有关,因为我在一些论坛中检查了华擎机架和 ryzen cpu 的主板,我设法找到了一些关于相同问题的案例,即使 windows 10 或 windows 服务器也出现蓝屏死机。正如操作系统支持在这种情况下建议的那样,不要更改主板品牌,因为可能会有被拒绝启动的风险,并且像我们一样迁移到新服务器。在我们迁移到新服务器后,所有问题都解决了。所以我想它确实与硬件问题有关,而不是软件问题。