gnome 终端崩溃并静默退出 - 运行 python3/nvidia RAPIDS 22.04

gnome 终端崩溃并静默退出 - 运行 python3/nvidia RAPIDS 22.04

我在 22.04 版的 conda 下运行一个使用 RAPIDS GPU 的 Python 程序(机器学习训练)——在大规模运行过程中,它有时会完全默默地存在并杀死它正在运行的 tmux 和 gnome 终端。我试过在 GDB 下运行,但也会被杀死。我该如何调试发生了什么?

答案1

您是否尝试过使用分布式跟踪(通过 OTel)进行调试?这是一个很好的起点 分布式跟踪

相关内容