CUDA：当进程在 GPU 上运行时，是否可以动态限制核心/线程/时钟频率的数量？

Question

当你检测到过热时，试图通过限制 GPU 来“解决”问题是一种馊主意。
您正在信封的不规则边缘上操作，即使您开始以 90 度（nVidia 指定的“红线”前 8 度）的速度减速，也不能保证您不会超出冷却的限制（以及硬件的安全操作范围）。

这条路只会带来痛苦——计算错误、硬件损坏以及高昂的维修/更换费用。

如果您足够早地限制 GPU，则会有所帮助。
您可以一直限制 GPU 的运行，防止它们超过其最高工作温度。这将节省您的硬件，但会降低性能以保持系统处于安全温度。
您可以使用PID 算法它开始将 GPU 的温度限制在 80 度左右，以将其保持在 90 度或以下。

虽然您可能在这个计算场上花了很多钱，但限制它有点违背目的（快速获得结果）。

解决冷却问题是唯一的真正的解决方案。
正如评论者指出的那样，您的核心问题是冷却不良/不足。

我们不知道为什么您的冷却系统不够完善，解决方案取决于根本原因。

Answer 1

当你检测到过热时，试图通过限制 GPU 来“解决”问题是一种馊主意。
您正在信封的不规则边缘上操作，即使您开始以 90 度（nVidia 指定的“红线”前 8 度）的速度减速，也不能保证您不会超出冷却的限制（以及硬件的安全操作范围）。

这条路只会带来痛苦——计算错误、硬件损坏以及高昂的维修/更换费用。

如果您足够早地限制 GPU，则会有所帮助。
您可以一直限制 GPU 的运行，防止它们超过其最高工作温度。这将节省您的硬件，但会降低性能以保持系统处于安全温度。
您可以使用PID 算法它开始将 GPU 的温度限制在 80 度左右，以将其保持在 90 度或以下。

虽然您可能在这个计算场上花了很多钱，但限制它有点违背目的（快速获得结果）。

解决冷却问题是唯一的真正的解决方案。
正如评论者指出的那样，您的核心问题是冷却不良/不足。

我们不知道为什么您的冷却系统不够完善，解决方案取决于根本原因。

相关内容