戴尔 PowerEdge R7525 + Nvidia A16

戴尔 PowerEdge R7525 + Nvidia A16

我们有一台 PowerEdge R7525 服务器,在 Debian 11 上安装了 nvidia A16 显卡。但是我们的 GPU 性能比其他服务器低 50% 左右。我怀疑是 BIOS 中缺少“4G 以上解码”选项。根据 nvidia 的说法,这台服务器最多可以处理 3 个 A16 GPU 单元。有人能给我一些解决方法或方法来充分利用这个 GPU 的全部功能吗?

提前非常感谢

答案1

(我在戴尔工作)——具体来说,我做了很多优化。

我觉得你有点偏离轨道了;“4G 以上解码”是 BIOS PCIe 内存枚举限制为 32 位时遗留下来的功能,现在情况已不再如此,而且已经有一段时间没有这种情况了。寻址现在是原生 64 位。

但我们的 GPU 性能比其他服务器低约 50%。

我不确定你的意思。我可能想得太多了,但这句话让我认为这可能是你第一次尝试优化,在这种情况下,太棒了!这是一个复杂但迷人的世界。GPU 性能可以通过无数种不同的方式衡量,因此这句话本身并不能缩小问题的范围。

至于为什么性能不佳,这是一个非常复杂的问题,人们可以写一整本书来解释。我发现人们在基于 AMD 的服务器上会犯一些常见错误:

  • 未考虑 PCIe 通道/处理器对齐。确保针对 GPU 运行的任何进程都分配给具有 GPU PCIe 通道的处理器,而不是远程处理器
  • 未能根据工作负载适当地设置每个核心的 NUMA(这是 R7525 等 AMD 系统所特有的)
  • 未能解决其他地方的瓶颈问题。例如:我曾遇到过有人发现 GPU 性能不佳,但实际上他们的部分软件受到存储 IO 限制的情况。
  • 这也许很明显,但请尝试将 BIOS 配置文件设置为性能。如果你将其设置为省电模式,则可能会导致降频,而你并不需要这样做
  • 内存传输对齐不良

优化与工作负载密切相关。如果这是您第一次经历优化,我会集中时间真正了解数据流动的方式以及可能出现瓶颈的地方。尝试找出似乎不合适的地方。例如:如果您认为 GPU 性能低,那么 GPU 利用率是多少?是否达到 100%?如果接近 100%,我开始倾向于软件问题。如果不是 100%,那么原因何在?您是否没有足够快地向其提供数据?显卡是否功率不足?服务器是否过热?等等。

相关内容