当我运行时nvidia-smi
,它总是显示:
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
我试过 Popos、manjaro、ubuntu 22.04,都不能用。GPU 仅在 Windows 中可用,这很糟糕。
我该如何解决?
我希望看到 GPU 的实时内存使用情况
答案1
方法 1
1.从HP网站安装特殊的Ubuntu系统
选择 ubuntu,下载 iso 文件,使用 将其放入 usb
Balena Etcher
,然后将其刷新到笔记本电脑中
2.进入ubuntu20.04系统后
您可以使用它nvidia-smi
来检查 GPU 内存。
3. 使用以下命令安装 tensorflowanaconda
Tensorflow 在这里有一个教程:https://www.tensorflow.org/install/pip
它是这样的:
conda install -c conda-forge cudatoolkit=11.8.0
python3 -m pip install nvidia-cudnn-cu11==8.6.0.163 tensorflow==2.12.*
mkdir -p $CONDA_PREFIX/etc/conda/activate.d
echo 'CUDNN_PATH=$(dirname $(python -c "import nvidia.cudnn;print(nvidia.cudnn.__file__)"))' >> $CONDA_PREFIX/etc/conda/activate.d/env_vars.sh
echo 'export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$CONDA_PREFIX/lib/:$CUDNN_PATH/lib' >> $CONDA_PREFIX/etc/conda/activate.d/env_vars.sh
source $CONDA_PREFIX/etc/conda/activate.d/env_vars.sh
# Verify install:
python3 -c "import tensorflow as tf; print(tf.config.list_physical_devices('GPU'))"
4.安装pytorch
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
验证一下:
import torch
print(torch.cuda.is_available())
方法 2
1.升级HP bios
您可以直接使用在线 BIOS 更新来更新您的 BIOS 固件。
Reboot -> F2 -> Esc -> Set up WiFi -> reboot -> F10 -> update bios in a online way
或者您可以使用Windows系统进行更新:
https://support.hp.com/us-en/document/ish_3894564-1633733-16
2. 切换到integrated graphics only mode
在 popos 中,您可以在右上角图标的电源设置中进行此操作。
在 ubuntu 中,你可以在nvidia-settings
-> profile-settings
->use integrated graphics
重启
3. 使用 gcc-12
which gcc
# if gcc is not gcc-12, then do the following
sudo rm /usr/bin/gcc
sudo ln -s /usr/bin/gcc-12 /usr/bin/gcc
4. 为你的特殊 gpu 版本安装 nvidia 特殊驱动程序
对我来说,是的GeForce RTX 3070 Mobile
。
从 nvidia 驱动程序下载页面,你可以下载类似NVIDIA-Linux-x86_64-525.105.17.run
https://www.nvidia.com/download/index.aspx?lang=en-us
然后执行以下操作:
sudo chmod 777 NVIDIA-Linux-x86_64-525.105.17.run
sudo ./NVIDIA-Linux-x86_64-525.105.17.run
5. 切换回nvidia graphics only mode
重启
现在,你应该能够使用它nvidia-smi
来查看实时的 gpu 内存信息
6.安装anaconda
https://conda.io/projects/conda/en/latest/user-guide/install/linux.html#installing-on-linux
下载文件如下Anaconda3-2023.03-Linux-x86_64.sh
sudo chmod 777 Anaconda3-2023.03-Linux-x86_64.sh
sudo ./Anaconda3-2023.03-Linux-x86_64.sh
7.使用conda安装cuda
现在,打开一个新的终端窗口
然后,尝试使用 tensorflow 官方文档中的脚本安装 tensorflow:
https://www.tensorflow.org/install/pip
conda install -c conda-forge cudatoolkit=11.8.0
python3 -m pip install nvidia-cudnn-cu11==8.6.0.163 tensorflow==2.12.*
mkdir -p $CONDA_PREFIX/etc/conda/activate.d
echo 'CUDNN_PATH=$(dirname $(python -c "import nvidia.cudnn;print(nvidia.cudnn.__file__)"))' >> $CONDA_PREFIX/etc/conda/activate.d/env_vars.sh
echo 'export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$CONDA_PREFIX/lib/:$CUDNN_PATH/lib' >> $CONDA_PREFIX/etc/conda/activate.d/env_vars.sh
source $CONDA_PREFIX/etc/conda/activate.d/env_vars.sh
# Verify install:
python3 -c "import tensorflow as tf; print(tf.config.list_physical_devices('GPU'))"
8. 完成
作者:@yingshaoxo