无法在 Ubuntu 22.04 LTS T2-linux Macbook Pro 16 英寸 Intel 2019(双启动)上安装带有雷电连接的 Akitio Node eGPU 的 NVIDIA 显示驱动程序

无法在 Ubuntu 22.04 LTS T2-linux Macbook Pro 16 英寸 Intel 2019(双启动)上安装带有雷电连接的 Akitio Node eGPU 的 NVIDIA 显示驱动程序

根据 T2linux 页面上的文档,我已在 MacbookPro-16,1 上成功安装了 Ubuntu-22.04.3-LTS (https://wiki.t2linux.org/distributions/ubuntu/installation/)。显示器、Wifi、蓝牙、音频、摄像头、键盘和触摸板等目前均正常工作。

为了使用这台机器进行数据科学工作。我通过 Thunderbolt 连接了装有 Nvidia 1080Ti 的 Akitio Node eGPU 盒

  • 系统信息:Apple Inc. MacBookPro16,1 - NAVI14 (navi14、LLVM 15.0.7、DRM 3.52、6.4.8-t2-jammy)
(base) rahul@karmax:~$ uname -a 
Linux karmax 6.4.8-t2-jammy #1 SMP PREEMPT_DYNAMIC Thu Aug  3 18:36:57 UTC 2023 x86_64 x86_64 x86_64 GNU/Linux

(base) rahul@karmax:~$ sudo lshw -C display 
  *-display                 
       description: VGA compatible controller
       product: Navi 14 [Radeon RX 5500/5500M / Pro 5500M]
       vendor: Advanced Micro Devices, Inc. [AMD/ATI]
       physical id: 0
       bus info: pci@0000:03:00.0
       logical name: /dev/fb0
       version: 40
       width: 64 bits
       clock: 33MHz
       capabilities: pm pciexpress msi vga_controller bus_master cap_list rom fb
       configuration: depth=32 driver=amdgpu latency=0 mode=3072x1920 resolution=3072,1920 visual=truecolor xres=3072 yres=1920
       resources: iomemory:410-40f iomemory:400-3ff irq:87 memory:4100000000-41ffffffff memory:4080000000-40801fffff ioport:3000(size=256) memory:81500000-8157ffff memory:81580000-8159ffff
  *-display UNCLAIMED
       description: VGA compatible controller
       product: GP102 [GeForce GTX 1080 Ti]
       vendor: NVIDIA Corporation
       physical id: 0
       bus info: pci@0000:82:00.0
       version: a1
       width: 64 bits
       clock: 33MHz
       capabilities: pm msi pciexpress vga_controller cap_list
       configuration: latency=0
       resources: memory:92000000-92ffffff memory:90000000-91ffffff ioport:9000(size=128) memory:93000000-9307ffff

  1. 我的挑战是我在第一次启动时安装了 nvidia-driver-535。然后命令nvidia-smi响应了No device found
  1. 此后,我尝试将驱动程序版本降级到 和nvidia-driver-515nvidia-driver-470此时系统无法启动,并且出现多个错误。
  • 第一个错误是[drm:nv_drm_load] *ERROR* Failed to allocate NvKmsKapiDevice[drm:nv_drm_probe_devices] *ERROR* Failed to register device。但是启动过程没有停止,而是通过 Nouveau X 系统顺利启动。
  • 然而,后来在重新安装尝试nvidia-driver-470和其他尝试之后,这个错误阻止了我的启动过程并出现错误[FAILED] Failed to start NVIDIA Persistence Daemon(附图无法启动错误 NVIIDIA
  • 为了解决这个问题,我不得不在安全模式启动终端中清理所有 nvidia 驱动程序安装。然后恢复到 nouveau 驱动程序并断开我的 eGPU 以启动到 ubuntu 桌面。

我希望能够安装带有 Nvidia CUDA 驱动程序的 pytorch 来进行数据科学工作,并nvidia-smi在训练期间观察 GPU 的状态,而无需像游戏那样使用 eGPU 驱动外部显示器。但是,我无法完成驱动程序安装并进行测试nvidia-smi

如果您对此问题有任何指导,请告诉我。

相关内容