我有一个 LSF 集群并遇到以下问题。
一段时间后,随机操作系统进程开始死亡(它们变成僵尸或失效),并且 LSF 节点不会向 NSF 主节点报告任何问题。我认为这是由于 LSF 任务耗尽了节点上的内存(128GB)造成的。
这些任务以非 root LSF 用户身份运行。
问题。我怎样才能让 LSF 任务消亡而不是 OS 进程消亡?
任何其他建议和想法都将受到赞赏。
(我在此承认记忆是困难的。)
我有一个 LSF 集群并遇到以下问题。
一段时间后,随机操作系统进程开始死亡(它们变成僵尸或失效),并且 LSF 节点不会向 NSF 主节点报告任何问题。我认为这是由于 LSF 任务耗尽了节点上的内存(128GB)造成的。
这些任务以非 root LSF 用户身份运行。
问题。我怎样才能让 LSF 任务消亡而不是 OS 进程消亡?
任何其他建议和想法都将受到赞赏。
(我在此承认记忆是困难的。)