该服务器运行多个卫星图像进程,拥有 256GB RAM、12TB 磁盘、64 个 CPU 核心 Intel(R) Xeon(R) Gold 6226R CPU @ 2.90GHz。这种情况下它应该不会出现故障,但有时会出现故障。这是典型 htop 的屏幕截图。
当系统出现故障时,我可以使用 IPMI 远程控制捕获其最后一条控制台消息。最后一条是这样的:
由于 systemd 无法提供这些服务,服务器无法工作,我们无法通过 ssh 进入进行修复,只能硬重置。我们应该怎么做才能防止出现此问题?
编辑:服务器有一个 M.2 240GB 磁盘用于 / 中的操作系统,还有一个 12TB 磁盘用于 /data。系统是...
Linux tsom02 5.10.0-12-amd64 #1 SMP Debian 5.10.103-1 (2022-03-07) x86_64 GNU/Linux
M2 的 / 分区只有 28GB。也许这就是原因?我应该为 / 使用更多空间吗?
vmstat 5 5 的输出为: