NVIDIA GPU 功率超出限制(Nvidia A100)

NVIDIA GPU 功率超出限制(Nvidia A100)

我正在 A100 GPU 中执行 CUDA 内核,并且我意识到某些点的功耗高于nvidia-smi给定的范围:

在此处输入图片描述

该照片取自nvtop

这是我应该担心的事情吗?

答案1

唯一令人担忧的是温度,似乎只有不起眼的 52°C。如果功耗确实超过最大值,这毫无道理。

所以,请随意选择。以下任一种:

  • 电力消耗数据是错误的
  • 报告的温度是错误的
  • nvtop无法与您的 GPU 正确配合使用。

我建议使用其他应用程序验证温度。如果它们也报告相同的读数,那么您不必担心。检查 CPU、GPU 和主板。

有用的参考资料:

答案2

GPU 的功耗是不均匀的 - 它有峰值和低点。显卡的指定功耗应理解为“一秒钟内的滚动平均值”,在此期间,功耗可能会高于或低于该值 - 这就是为什么建议 PSU 规格远高于 GPU 重型装备中指定组件功耗总和的原因之一。

nvidia-smi和朋友报告的不是移动平均值,而是瞬时功耗,当然可能会超过指定值。如果您在统计相关的样本中随机抽取 GPU 功耗,您很可能会看到非常接近规格的值。

相关内容