方法 1

方法 1

当我运行时nvidia-smi,它总是显示:

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

我试过 Popos、manjaro、ubuntu 22.04,都不能用。GPU 仅在 Windows 中可用,这很糟糕。

我该如何解决?

我希望看到 GPU 的实时内存使用情况

答案1

方法 1

1.从HP网站安装特殊的Ubuntu系统

https://support.hp.com/hk-en/drivers/selfservice/hp-zbook-studio-15.6-inch-g8-mobile-workstation-pc/2100677682

选择 ubuntu,下载 iso 文件,使用 将其放入 usb Balena Etcher,然后将其刷新到笔记本电脑中

2.进入ubuntu20.04系统后

您可以使用它nvidia-smi来检查 GPU 内存。

3. 使用以下命令安装 tensorflowanaconda

Tensorflow 在这里有一个教程:https://www.tensorflow.org/install/pip

它是这样的:


conda install -c conda-forge cudatoolkit=11.8.0
python3 -m pip install nvidia-cudnn-cu11==8.6.0.163 tensorflow==2.12.*
mkdir -p $CONDA_PREFIX/etc/conda/activate.d
echo 'CUDNN_PATH=$(dirname $(python -c "import nvidia.cudnn;print(nvidia.cudnn.__file__)"))' >> $CONDA_PREFIX/etc/conda/activate.d/env_vars.sh
echo 'export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$CONDA_PREFIX/lib/:$CUDNN_PATH/lib' >> $CONDA_PREFIX/etc/conda/activate.d/env_vars.sh
source $CONDA_PREFIX/etc/conda/activate.d/env_vars.sh
# Verify install:
python3 -c "import tensorflow as tf; print(tf.config.list_physical_devices('GPU'))"

4.安装pytorch

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

https://pytorch.org/get-started/locally/

验证一下:


import torch

print(torch.cuda.is_available())

方法 2

1.升级HP bios

您可以直接使用在线 BIOS 更新来更新您的 BIOS 固件。


Reboot -> F2 -> Esc -> Set up WiFi -> reboot -> F10 -> update bios in a online way

或者您可以使用Windows系统进行更新:

https://support.hp.com/us-en/document/ish_3894564-1633733-16

2. 切换到integrated graphics only mode

在 popos 中,您可以在右上角图标的电源设置中进行此操作。

在 ubuntu 中,你可以在nvidia-settings-> profile-settings->use integrated graphics

重启

3. 使用 gcc-12


which gcc



# if gcc is not gcc-12, then do the following

sudo rm /usr/bin/gcc

sudo ln -s /usr/bin/gcc-12 /usr/bin/gcc

4. 为你的特殊 gpu 版本安装 nvidia 特殊驱动程序

对我来说,是的GeForce RTX 3070 Mobile

从 nvidia 驱动程序下载页面,你可以下载类似NVIDIA-Linux-x86_64-525.105.17.run

https://www.nvidia.com/download/index.aspx?lang=en-us

然后执行以下操作:


sudo chmod 777 NVIDIA-Linux-x86_64-525.105.17.run

sudo ./NVIDIA-Linux-x86_64-525.105.17.run

5. 切换回nvidia graphics only mode

重启

现在,你应该能够使用它nvidia-smi来查看实时的 gpu 内存信息

6.安装anaconda

https://conda.io/projects/conda/en/latest/user-guide/install/linux.html#installing-on-linux

下载文件如下Anaconda3-2023.03-Linux-x86_64.sh


sudo chmod 777 Anaconda3-2023.03-Linux-x86_64.sh

sudo ./Anaconda3-2023.03-Linux-x86_64.sh

7.使用conda安装cuda

现在,打开一个新的终端窗口

然后,尝试使用 tensorflow 官方文档中的脚本安装 tensorflow:

https://www.tensorflow.org/install/pip


conda install -c conda-forge cudatoolkit=11.8.0

python3 -m pip install nvidia-cudnn-cu11==8.6.0.163 tensorflow==2.12.*

mkdir -p $CONDA_PREFIX/etc/conda/activate.d

echo 'CUDNN_PATH=$(dirname $(python -c "import nvidia.cudnn;print(nvidia.cudnn.__file__)"))' >> $CONDA_PREFIX/etc/conda/activate.d/env_vars.sh

echo 'export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$CONDA_PREFIX/lib/:$CUDNN_PATH/lib' >> $CONDA_PREFIX/etc/conda/activate.d/env_vars.sh

source $CONDA_PREFIX/etc/conda/activate.d/env_vars.sh

# Verify install:

python3 -c "import tensorflow as tf; print(tf.config.list_physical_devices('GPU'))"

8. 完成

作者:@yingshaoxo

相关内容