调试 cuda nvidia 驱动程序崩溃

调试 cuda nvidia 驱动程序崩溃

我正在运行带有 GeForce 690 GPU 的无头 Ubuntu 服务器 14.04,尝试做有趣的 Cuda 机器学习工作。我遇到了驱动程序挂起的问题,希望在这里获得一些调试帮助。这是一个新问题;该卡过去在计算方面运行正常。

问题是基本上任何尝试连接到该卡的程序都会挂起。我自己编写的非常简单的程序以及 nvidia 提供的 nvidia-smi 二进制文件都会发生这种情况。我已经通过 strace 运行了每一个,它们都挂在一个打开的系统调用上,试图打开 /dev/nvidiactl 设备。

一旦程序挂起,它们就不再能够接收信号(kill -9 无效)。我只能通过重新启动来阻止它们。

我试图强制 rmmod 的 nvidia 驱动程序,但它声称正在使用中。 lsof 显示没有程序实际保存 /dev/nvidiactl 的文件描述符。

机器上没有连接显示器,也没有运行任何图形程序(X、gnome、unity 等)。

在系统级别开始调试此类内容的最佳方法是什么?这很困难,因为驱动程序代码是专有的......

相关内容