根据 T2linux 页面上的文档,我已在 MacbookPro-16,1 上成功安装了 Ubuntu-22.04.3-LTS (https://wiki.t2linux.org/distributions/ubuntu/installation/)。显示器、Wifi、蓝牙、音频、摄像头、键盘和触摸板等目前均正常工作。
为了使用这台机器进行数据科学工作。我通过 Thunderbolt 连接了装有 Nvidia 1080Ti 的 Akitio Node eGPU 盒
- 系统信息:Apple Inc. MacBookPro16,1 - NAVI14 (navi14、LLVM 15.0.7、DRM 3.52、6.4.8-t2-jammy)
(base) rahul@karmax:~$ uname -a
Linux karmax 6.4.8-t2-jammy #1 SMP PREEMPT_DYNAMIC Thu Aug 3 18:36:57 UTC 2023 x86_64 x86_64 x86_64 GNU/Linux
(base) rahul@karmax:~$ sudo lshw -C display
*-display
description: VGA compatible controller
product: Navi 14 [Radeon RX 5500/5500M / Pro 5500M]
vendor: Advanced Micro Devices, Inc. [AMD/ATI]
physical id: 0
bus info: pci@0000:03:00.0
logical name: /dev/fb0
version: 40
width: 64 bits
clock: 33MHz
capabilities: pm pciexpress msi vga_controller bus_master cap_list rom fb
configuration: depth=32 driver=amdgpu latency=0 mode=3072x1920 resolution=3072,1920 visual=truecolor xres=3072 yres=1920
resources: iomemory:410-40f iomemory:400-3ff irq:87 memory:4100000000-41ffffffff memory:4080000000-40801fffff ioport:3000(size=256) memory:81500000-8157ffff memory:81580000-8159ffff
*-display UNCLAIMED
description: VGA compatible controller
product: GP102 [GeForce GTX 1080 Ti]
vendor: NVIDIA Corporation
physical id: 0
bus info: pci@0000:82:00.0
version: a1
width: 64 bits
clock: 33MHz
capabilities: pm msi pciexpress vga_controller cap_list
configuration: latency=0
resources: memory:92000000-92ffffff memory:90000000-91ffffff ioport:9000(size=128) memory:93000000-9307ffff
- 我的挑战是我在第一次启动时安装了 nvidia-driver-535。然后命令
nvidia-smi
响应了No device found
。
- 然后我使用了 egpu-switcher(https://github.com/hertg/egpu-switcher)设置我的显示配置以使用外部 NVIDIA GPU 而不是内部 AMD GPU。
- 此外,我遵循了内核参数
GRUB_CMDLINE_LINUX_DEFAULT="quiet splash nvidia.NVreg_OpenRmEnableUnsupportedGpus=1 pci=realloc"
,参考https://community.frame.work/t/solved-nvidia-drivers-failing-to-load-egpu-on-ubuntu-22-04-1-bios-3-06-beta/25940/17。 - 我可以重新启动,并且我的笔记本电脑显示屏也显示了出来,但是没有任何东西可以通过 eGPU 提供。
- 此后,我尝试将驱动程序版本降级到 和
nvidia-driver-515
。nvidia-driver-470
此时系统无法启动,并且出现多个错误。
- 第一个错误是
[drm:nv_drm_load] *ERROR* Failed to allocate NvKmsKapiDevice
和[drm:nv_drm_probe_devices] *ERROR* Failed to register device
。但是启动过程没有停止,而是通过 Nouveau X 系统顺利启动。 - 然而,后来在重新安装尝试
nvidia-driver-470
和其他尝试之后,这个错误阻止了我的启动过程并出现错误[FAILED] Failed to start NVIDIA Persistence Daemon
(附图无法启动错误 NVIIDIA) - 为了解决这个问题,我不得不在安全模式启动终端中清理所有 nvidia 驱动程序安装。然后恢复到 nouveau 驱动程序并断开我的 eGPU 以启动到 ubuntu 桌面。
我希望能够安装带有 Nvidia CUDA 驱动程序的 pytorch 来进行数据科学工作,并nvidia-smi
在训练期间观察 GPU 的状态,而无需像游戏那样使用 eGPU 驱动外部显示器。但是,我无法完成驱动程序安装并进行测试nvidia-smi
。
如果您对此问题有任何指导,请告诉我。