gpu负载下电脑关机的根本原因检查

gpu负载下电脑关机的根本原因检查

我正在尝试将我的 Nvidia gpu 用于科学目的。但是过了一会儿,我为这个 gpu 启动了一个进程,我的电脑关机了。除非 PSU 电源按钮关闭并保持此状态至少 30 秒,然后打开,否则无法通过机箱按钮打开它。我正在尝试找出这种情况的原因。

我的系统概述是:

  • Linux(Fedora)
  • 主板:技嘉GA-970A-UD3
  • Nvidia Gtx 1070(用于 GPU 任务)
  • Radeon HD 7850(用于标准用途)
  • 700W 电源

以下是我迄今为止尝试过的事情的列表:

  • 我做了 CPU 负载测试,它没有关闭
  • 我移除了 AMD GPU,它仍然关闭
  • 如果我短时间对 Nvidia GPU 进行轻量计算,它不会关闭
  • 如果我进行大量计算,它会在启动后不久关闭
  • 我检查了 Nvidia gpu 温度,即使它最高温度浮动在 55 C 左右,它也会关闭
  • 我手动将 Nvidia GPU 风扇速度设置为 80%。这似乎有帮助,因为给定的任务运行时间比平时稍长,但它并没有阻止关机
  • 我移除了多余的硬盘或风扇,以减轻电源的负担,但这毫无帮助
  • 我使用添加了额外的 PSU添加2psu但仍然关闭
  • 即使 CPU 温度在 45 左右,如果 Nvidia GPU 开始计算,它也会关闭
  • 我彻底改变了我的计算软件,但它关闭了
  • 我更新了 Nvidia 驱动程序,但这没有帮助
  • 我尝试了随机计算以隔离硬盘读取过程,但它仍然关闭
  • 我重新安装了操作系统,但问题仍然存在
  • 我检查了主板,但没有烧伤痕迹

你有什么建议?造成这种情况的根本原因是什么?

谢谢。

答案1

您的 CPU 温度是多少?导热化合物使用不当(例如:CPU 冷却器不足或未对准)可能会因过热而导致同样的问题,最后要检查的是您的电源,我最近有一个电源在负载(游戏)下出现故障,会重新启动我的系统,但我不玩游戏时会运行数小时。最便宜和最简单的方法是首先检查 PSU,如果仍然没有缓解,则考虑重新涂抹 CPU 上的导热化合物,并确保您的 CPU 冷却器正确就位。

答案2

我检查了 Nvidia GPU 中任务执行时的时钟频率,发现确实超出了规格最大值。因此,在某些较低状态下(如 P8),它不会关机,但这种过度超频的频率会阻止它在较高状态下工作。

我无法限制 Nvidia GPU 的时钟频率。但是我设法通过限制其功耗使其工作,但代价是执行速度相对较慢 20%。

命令:

nvidia-smi --persistence-mode=1
nvidia-smi --power-limit=$POWER_LIMIT

相关内容