我们组有一台Linux服务器,有4A100 PCIE 80G 和 4板载 RTX A6000。A6000 工作正常,但 A100 始终停留在 P0 状态(nvidia-smi
请参阅此处输出中的 GPU 2 和 3)。
虽然我们可以正常使用 A100,但在双精度任务中,它的速度甚至比 A6000s 还要慢一点。考虑到 A100 的理论双精度性能远高于 A6000s,我认为它运行得并不正常。
我想知道 NVIDIA 是否有任何限制来阻止人们在同一台机器上同时使用这些数据中心卡和 Quadro 系列卡。如果没有,我们是否需要安装不同版本的驱动程序才能让它们正常运行?
答案1
驱动程序分支 535 支持 A100 和 RTX A6000:https://docs.nvidia.com/datacenter/tesla/tesla-release-notes-535-129-03/index.html虽然某些服务器平台不正式支持您所概述的 GPU 组合,但安装适当的驱动程序后它很可能会“正常工作”。
请注意,A100 仅支持 P0:https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/a100/pdf/PB-10577-001_v02.pdf(见第 7 页)。
我认为您正在尝试确定为什么您看到 RTX A6000 的双精度性能比 A100 更好。虽然这超出了我的专业范围,但我建议首先从系统中删除 A6000,并确保它们得到充分利用,并在将 A6000 重新添加到组合之前解决存在的任何配置或软件瓶颈。应用程序可能需要使用 CUDA 优化重新编译 Ampere 和 Ada,才能在两者上实现全部性能。您的 nvidia-smi 屏幕截图似乎没有显示会影响性能的明显功率目标或 MIG 配置,所以我怀疑它是应用程序端或其他系统瓶颈。