我在 22.04 版的 conda 下运行一个使用 RAPIDS GPU 的 Python 程序(机器学习训练)——在大规模运行过程中,它有时会完全默默地存在并杀死它正在运行的 tmux 和 gnome 终端。我试过在 GDB 下运行,但也会被杀死。我该如何调试发生了什么?
答案1
您是否尝试过使用分布式跟踪(通过 OTel)进行调试?这是一个很好的起点 分布式跟踪
我在 22.04 版的 conda 下运行一个使用 RAPIDS GPU 的 Python 程序(机器学习训练)——在大规模运行过程中,它有时会完全默默地存在并杀死它正在运行的 tmux 和 gnome 终端。我试过在 GDB 下运行,但也会被杀死。我该如何调试发生了什么?
您是否尝试过使用分布式跟踪(通过 OTel)进行调试?这是一个很好的起点 分布式跟踪