无法让 Tensorflow 在 GPU 上运行

Question

我过去遇到过类似的问题，经过一番挖掘，发现这主要是因为 Conda 倾向于使用与系统无关的自己的 CUDA 和 CUDNN 版本（因为这样可以减少问题）。

我个人强烈推荐使用mamba（https://github.com/mamba-org/mamba)，因为我的速度更快，似乎更可靠，并且所有命令都只是替换。为此，只需安装“CUDN”，CUDA 就是它的依赖项，通过类似以下方式（conda为此使用，但如果您愿意，可以随意替换conda）mamba：

conda install -c conda-forge cudnn cudatoolkit

如果您愿意的话，下面的内容应该可以让您在裸机上启动并运行（假设您使用的是 Ubuntu）：

sudo apt install nvidia-cuda-toolkit
whereis cuda

从 Nvidia 下载 CUDNN 二进制文件（https://developer.nvidia.com/rdp/form/cudnn-download-survey）

提取使用tar -xvzf path-to-binary

然后将其复制到 CUDA 安装文件夹中（确保它与的输出相对应whereis cuda），尽管我在这里给出一个例子：

sudo cp cuda/include/cudnn.h /usr/lib/cuda/include/
sudo cp cuda/lib64/libcudnn* /usr/lib/cuda/lib64/

接下来更改为正确的用户权限（全部+读取）：

sudo chmod a+r /usr/lib/cuda/include/cudnn.h /usr/lib/cuda/lib64/libcudnn*

然后，您可以$PATH通过以下方式将所有内容添加到变量中：

echo 'export LD_LIBRARY_PATH=/usr/lib/cuda/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/lib/cuda/include:$LD_LIBRARY_PATH' >> ~/.bashrc

然后重新加载你的 shell，只需执行以下操作：

source ~/.bashrc

然后使用以下命令安装 TensorFlow pip：

pip install tensorflow

对于这两种安装，请尝试以下操作以确保您能够使用 GPU。

进入 Python shell（类似于python3你的终端）

>>> import tensorflow as tf
>>> tf.config.list_physical_devices("GPU")
[PhysicalDevice(name='/physical_device:GPU:0', device_type='GPU')]

如果一切顺利，应该会有与上面类似的结果，如果你有超过 1 个 GPU，你可能会有更多结果。

希望有帮助！

Answer 1