我需要的
我需要使用 TensorFlow 并使用 GPU 训练我的网络。我已安装在新的环境中使用 anaconda 安装 tensorflow gpu conda create --name tf_gpu tensorflow-gpu
。这样应该可以正确安装 CUDA。但是,尽管 Tensorflow 正确使用了 CUDA,但它看不到 GPU:
assert tf.test.is_built_with_cuda() # True
assert tf.test.is_gpu_available() # False
print(device_lib.list_local_devices())
[name: "/device:CPU:0"
device_type: "CPU"
memory_limit: 268435456
locality {
}
incarnation: 8659538338150116047
, name: "/device:XLA_CPU:0"
device_type: "XLA_CPU"
memory_limit: 17179869184
locality {
}
incarnation: 3957650727733291855
physical_device_desc: "device: XLA_CPU device"
]
另一件事是,在“显示”中屏幕显示为“未知设备”,而我的最大分辨率是 1024x768。
我做什么
我的 NVIDIA 驱动程序是通用的 X.Org,因此我尝试安装 nvidia 的专有驱动程序。我打开以下图片:
所以我选择使用 nvidia-driver-430 的按钮。
问题是重新启动后我遇到了这里描述的问题:清洁,n/n 个文件,n/n 个块
我通过sudo apt-get purge nvidia*
在恢复模式下运行正确地解决了这个问题。但是,我最终还是无法安装驱动程序。运行后sudo ubuntu-drivers autoinstall
问题又出现了。
我怎样才能顺利地安装它们?
硬件和操作系统
所以我有了一台新的工作电脑,我将在上面运行 GPU 的 TensorFlow 网络。我使用的是 Ubuntu 18.04.3 LTS 和 Nvidia MSI GeForce RTX 2080 TI GAMING X TRIO
调试
如果我尝试,ubuntu-drivers devices
我会得到:
== /sys/devices/pci0000:00/0000:00:01.0/0000:01:00.0 ==
modalias : pci:v000010DEd00001E07sv00001462sd00003715bc03sc00i00
vendor : NVIDIA Corporation
driver : nvidia-driver-430 - distro non-free recommended
driver : xserver-xorg-video-nouveau - distro free builtin
然而,根据这我还应该得到model
(geforce 2080 rtx ti),但我没有。
我安装了 Windows 以查看这是否是 Ubuntu 的问题。但是在 Windows 中也无法正常工作。我在“设备管理器”中看到以下内容:
我去了官方 Windows 支持并执行以下操作:如果我尝试更新驱动程序,系统会提示已安装正确的驱动程序。如果我尝试卸载然后“扫描硬件更改”,操作系统会崩溃并重新启动。
我在办公室里发现了一台 Nvidia NVS 315,所以我插上它看看它是否能用。我在 Windows 中启动,它现在运行正常。
答案1
因此问题出在驱动程序/操作系统问题或硬件问题。
为此,我在 Windows 上尝试了。由于主板在 Windows 上无法工作,我断定这是硬件问题。
现在可能是主板或 GPU 的问题,因此我尝试了另一个 Nvidia GPU 并且成功了,所以最有可能的结论是我的 GPU(GeForce 2080)有故障。