我刚刚小心地将最新的 nvidia 驱动器安装到新的 amazon g2.2xlarge ec2 实例上,我想用它进行一些机器学习。
在安装 cuda 和其他软件包之前,我想验证驱动程序是否已正确安装。
我的理解是 nvidia-smi 是完成这项工作的工具。
当我不使用任何选项时,nvidia-smi 命令似乎会返回输出。
ubuntu@ip-10-220-191-26:~$ nvidia-smi
Tue Apr 5 05:51:06 2016
+------------------------------------------------------+
| NVIDIA-SMI 352.39 Driver Version: 352.39 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
Killed
但是,如果我要求它显示 GPU 甚至帮助页面,它就会挂起。
ubuntu@ip-10-220-191-26:~$ nvidia-smi -L
我甚至无法用 SIGKILL 杀死它。我必须重新启动机器。
ubuntu@ip-10-220-191-26:~$ ps aux | grep smi
ubuntu 3919 0.0 0.0 14120 932 pts/0 D+ 05:37 0:00 nvidia-smi -h
ubuntu 3991 0.0 0.0 14120 928 pts/1 D+ 05:38 0:00 nvidia-smi -L
ubuntu 4064 0.0 0.0 10460 928 pts/2 S+ 05:42 0:00 grep --color=auto smi
ubuntu@ip-10-220-191-26:~$ kill 3919
ubuntu@ip-10-220-191-26:~$ kill 3991
ubuntu@ip-10-220-191-26:~$ ps aux | grep smi
ubuntu 3919 0.0 0.0 14120 932 pts/0 D+ 05:37 0:00 nvidia-smi -h
ubuntu 3991 0.0 0.0 14120 928 pts/1 D+ 05:38 0:00 nvidia-smi -L
ubuntu 4066 0.0 0.0 10460 932 pts/2 S+ 05:43 0:00 grep --color=auto smi
我不确定如何调试这个问题。
我只是想验证驱动器是否正确安装并与 GPU 通信。
答案1
这可能是 GPU 错误,这就是$nvidia-smi
挂起的原因。尝试运行:
$ journalctl -p 3 | grep -i "nvidia"
并浏览日志以找到问题的错误消息/代码。