在 CA 证书步骤期间安装 CUDA 时 Ubuntu 冻结

在 CA 证书步骤期间安装 CUDA 时 Ubuntu 冻结

首先,感谢您在这个论坛上付出的时间和帮助,特别是帮助解决我的问题。

语境

我买了一台 Alienware Area 51 R4 用于工作。硬件规格如下:

  • 237.37 [GB] NVMe KXG50ZNV256G(Windows 10 已上线)
  • 2 [TB] ST2000DM001-1ER164(Ubuntu 就在这里)
  • NVIDIA GeForce GTX 1080
  • 英特尔酷睿 i7-7820X

在其中安装 Ubuntu 18.04.2 LTS Bionic Beaver 简直是一场噩梦,一切都失败了。我有一台 2015 年的 Alienware 笔记本电脑,双启动 Windows 10 和 Ubuntu 18.04 的过程非常简单,一切都运行顺利。

我最终设法在我的 Area 51 中安装 Ubuntu 的方法是将其安装在辅助 HDD 中,并让 Windows 10 单独安装在 SSD 中。

Ubuntu 分区是按照本指南创建的:

使用独立硬盘进行双启动

GRUB 无法识别我的 Windows SSD,因此我只能通过 BIOS 在两个操作系统之间切换。我认为这与启用 Intel RST 有关,我读到过我应该切换到 AHCI,但当时这对我来说似乎太冒险了。

需要注意的是:

  • 安全启动已关闭
  • 快速启动已关闭。
  • 休眠模式已关闭。

问题

我正在尝试安装 CUDA 9.0,使用:

sudo dpkg -i cuda-repo-ubuntu1704-9-0-local_9.0.176-1_amd64.deb
sudo apt-key add /var/cuda-repo-9-0-local/7fa2af80.pub
sudo apt-get update
sudo apt-get install cuda

注意:当然,我之前已经安装了 GPU 驱动程序。

当我输入最后一条命令时,系统完全冻结并重新启动。

计算机死机前最后一份报告的图片

可以看到,报告的问题是:

头:无法打开“etc/ssl/certs/java/cacerts”进行读取:没有这样的文件或目录

此后,计算机冻结并重新启动。

我努力了:

sudo update-ca-certificates

它创建了缺失的 cacerts 文件,但当我尝试再次安装 CUDA 时,它冻结了。与笔记本电脑中现有的文件相比,cacerts 文件看起来几乎是空的。

我也尝试过(按照建议缺少 cacerts 文件):

sudo dpkg --purge --force-depends ca-certificates-java
sudo apt-get install ca-certificates-java

第二条命令使计算机冻结。

我整天都在处理这个问题,并开始陷入绝望。

如有任何建议,我们将不胜感激,谢谢。

更新(2019 年 10 月 4 日):我决定从辅助硬盘上删除 Ubuntu,因为我怀疑它没有正确安装。此外,我决定禁用 Intel RST 并启用 AHCI,当然采取适当的措施才能访问 Windows 10。硬盘被彻底擦除、格式化,并编辑了 UEFI 条目列表以从中删除 Ubuntu。这就像重新使用一台全新的电脑一样。

在此背景下,我再次开始安装 Ubuntu,这次安装起来容易多了。我的主 SSD 检测到了 Windows 分区,我很高兴。但是,我继续将其安装在 HDD 中,因为我更喜欢将它们放在单独的驱动器中。在此之前,一切都很顺利。

系统和软件更新开始后,在结束之前,系统冻结并重新启动,真可惜。我设法解决了这个问题,并继续安装驱动程序和 CUDA。再一次,在 CUDA 安装过程中,它再次在与之前相同的步骤中崩溃。

今天早上,我尝试了@Turtle10000 的建议,但它再次尝试安装 CA 证书并崩溃了。

我有一些想法可以尝试,我会更新。感谢您的时间。

更新及解决方案(2018年4月12日):

我终于解决了我的问题。

我不会告诉你我做过的所有测试,但是如果你有 Alienware Area 51 R4 并且想要使用 Ubuntu 18.04 和 CUDA,请确保这是可以做到的。你需要遵循这个我花了 2 周时间才弄清楚的方法:

首先要安装 Ubuntu,您需要遵守以下要求:

  • 必须关闭安全启动
  • 必须关闭快速启动。
  • 必须关闭休眠模式。
  • 为了让 Ubuntu 能够看到两个存储驱动器,必须禁用 Intel RST 并启用 AHCI,您必须采取适当的措施才能再次访问 Windows 10。本小指南(RAID 至 AHCI) 在我看来是最简单的方法。

注意:所有步骤都不能跳过。

如果您检查 UEFI/BIOS 版本,您会注意到它已经过时了,版本号为 1.5.x,最早是 2017 年的。因此,从 Windows 进入“Alienware 更新”并更新所有内容,其中一个关键更新应该是 UEFI/BIOS。它将从 2019 年 3 月起更新为版本 2.xx。这可能是最关键的一步。

之后,您可以继续安装 Ubuntu,您应该会看到两个存储驱动器,并能够选择要安装的位置和方式。就我而言,我选择了辅助驱动器 (2 [TB] - HDD),并根据我上面引用的指南对该驱动器进行了分区。

安装 Ubuntu 后,登录,如果出现任何更新软件包的建议,请单击“稍后提醒我”。之后,我继续为我的 GPU 安装适当的 NVIDIA 驱动程序,以避免出现任何问题。这里适用于 GeForce GTX 1080 的 NVIDIA 驱动程序,Luis 使用 Vulkan 测试了 1080 的驱动程序,因此我遵循了他的指示。

完成最后一步后,你可以通过软件更新程序或终端继续更新 Ubuntu 软件包,完全没有问题。最后,下载 CUDA,就我而言,我下载了 CUDA 10.1 并按照说明进行安装。安装应该可以顺利完成。

请注意,如果您选择 CUDA 10.1,驱动程序将自动更新到 418.56 版本。

我没有遇到过 Ubuntu 的任何冻结或挂起问题。我认为更新 BIOS/UEFI 并从一开始就安装适当的驱动程序可以解决我的问题。

感谢您的阅读并祝您好运。

答案1

我建议sudo apt upgrade先运行,因为您有 281 个过时的包,这本身可能会导致问题。

.deb此外,使用(或) 文件进行安装.run很容易出错。我建议从源代码安装 CUDA,这对我来说总是很顺利。

sudo add-apt-repository ppa:graphics-drivers/ppa

sudo apt update

sudo ubuntu-drivers autoinstall

重启

sudo apt install nvidia-cuda-toolkit gcc-6

nvcc --version

相关内容