LSF 节点在耗尽所有内存后死亡

LSF 节点在耗尽所有内存后死亡

我有一个 LSF 集群并遇到以下问题。

一段时间后,随机操作系统进程开始死亡(它们变成僵尸或失效),并且 LSF 节点不会向 NSF 主节点报告任何问题。我认为这是由于 LSF 任务耗尽了节点上的内存(128GB)造成的。

这些任务以非 root LSF 用户身份运行。

问题。我怎样才能让 LSF 任务消亡而不是 OS 进程消亡?

任何其他建议和想法都将受到赞赏。

(我在此承认记忆是困难的。)

相关内容