系统更新

系统更新

我一直在尝试为我的新 RTX 2070 Super 安装 Tensorflow。我一直遵循以下说明:

脚步

验证系统是否具有支持 cuda 的 gpu

下载并安装 nvidia cuda 工具包和 cudnn

设置环境变量

验证安装

#

如果您有先前的安装,请先将其删除。

sudo apt-get purge nvidia*
sudo apt remove nvidia-*
sudo rm /etc/apt/sources.list.d/cuda*
sudo apt-get autoremove && sudo apt-get autoclean
sudo rm -rf /usr/local/cuda*

验证你的 gpu 是否启用 cuda

lspci | grep -i nvidia

使用 cuda 工具包进行开发需要 gcc 编译器。要验证 gcc 安装的版本,请输入

gcc --version

系统更新

sudo apt-get update
sudo apt-get upgrade

安装其他导入包

sudo apt-get install g++ freeglut3-dev build-essential libx11-dev libxmu-dev libxi-dev libglu1-mesa libglu1-mesa-dev

首先获取 PPA 存储库驱动程序

sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt-key adv --fetch-keys http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/7fa2af80.pub
echo "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64 /" | sudo tee /etc/apt/sources.list.d/cuda.list

# 安装 CUDA-10.0

sudo apt-get -o Dpkg::Options::="--force-overwrite" install cuda-10-0 cuda-drivers

设置你的路径

echo 'export PATH=/usr/local/cuda-10.0/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-10.0/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc
sudo ldconfig

安装 cuDNN v7.5

为了下载 cuDNN,你必须在这里注册https://developer.nvidia.com/developer-program/signup

然后下载 cuDNN v7.5 表格https://developer.nvidia.com/cudnn

CUDNN_TAR_FILE="cudnn-10.0-linux-x64-v7.5.0.56"
wget https://developer.nvidia.com/compute/machine-learning/cudnn/secure/v7.5.0.56/prod/10.0_20190219/cudnn-10.0-linux-x64-v7.5.0.56.tgz
tar -xzvf ${CUDNN_TAR_FILE}

将以下文件复制到 cuda 工具包目录中。

sudo cp -P cuda/include/cudnn.h /usr/local/cuda-10.0/include
sudo cp -P cuda/lib64/libcudnn* /usr/local/cuda-10.0/lib64/
sudo chmod a+r /usr/local/cuda-10.0/lib64/libcudnn*

最后,为了验证安装,请检查

nvidia-smi
nvcc -V

安装 Tensorflow(一个开源机器学习框架)

我选择 1.13.1 版本,因为它稳定并且与 CUDA 10.0 Toolkit 和 cuDNN 7.5 兼容

pip3 安装--用户 tensorflow-gpu==1.13.1

但是,当我输入时,nvidia-smi出现以下信息:无法初始化 NVML:驱动程序/库版本不匹配

我还尝试下载最新的 NVIDIA 驱动程序 (440.35),但无法成功运行 .run 文件。它一直显示一条消息,提示“发行版提供的预安装脚本失败!”

任何帮助将不胜感激!

答案1

我最终能够通过以下安装在我的 GeForce RTX 2070 Super 中安装 Tensorflow:

Ubuntu 18.04

CuDNN 7.5

CUDA 10.0

NVIDIA 驱动程序版本 430.50

然后我就pip3 install --user tensorflow-gpu==1.13.1使用 Conda 环境了。

答案2

该 gpu 支持 cuda 10.2,驱动程序版本 >=440 才支持该版本。ubuntu
18.04 本身可能不支持该驱动程序版本,或者其官方存储库中没有该版本。这就是为什么直接从 nvidia 网站安装驱动程序总是更好的原因;使用*.运行脚本
使用您当前的设置,性能将不理想。
在这种情况下,我建议下载 python车轮必要的软件包;或者使用包含所有软件包的 Docker 镜像预装软件。

相关内容