系统失败,请帮我解释最后的控制台消息(屏幕截图)

系统失败,请帮我解释最后的控制台消息(屏幕截图)

该服务器运行多个卫星图像进程,拥有 256GB RAM、12TB 磁盘、64 个 CPU 核心 Intel(R) Xeon(R) Gold 6226R CPU @ 2.90GHz。这种情况下它应该不会出现故障,但有时会出现故障。这是典型 htop 的屏幕截图。

捕获典型的 htop

当系统出现故障时,我可以使用 IPMI 远程控制捕获其最后一条控制台消息。最后一条是这样的:

崩溃前的最后一个控制台

由于 systemd 无法提供这些服务,服务器无法工作,我们无法通过 ssh 进入进行修复,只能硬重置。我们应该怎么做才能防止出现此问题?

编辑:服务器有一个 M.2 240GB 磁盘用于 / 中的操作系统,还有一个 12TB 磁盘用于 /data。系统是...

Linux tsom02 5.10.0-12-amd64 #1 SMP Debian 5.10.103-1 (2022-03-07) x86_64 GNU/Linux

M2 的 / 分区只有 28GB。也许这就是原因?我应该为 / 使用更多空间吗?

vmstat 5 5 的输出为:

vmstat 的输出 5 5

相关内容