在 CUDA 上运行 Python 脚本时系统冻结和崩溃(18.04)

在 CUDA 上运行 Python 脚本时系统冻结和崩溃(18.04)

当我执行在 CUDA 上运行的 python 脚本时,我的机器会冻结然后崩溃,而不会显示任何错误消息。两周前,在同一台设备上执行相同的脚本时没有出现问题。

细节

  • Ubuntu 18.04
  • 显卡 GeForce GTX 2070 SUPER
  • Cuda 编译工具,版本 12.0,V12.0.76(也尝试过其他版本,例如 9 和 10.1、10.2)
  • 驱动程序:NVIDIA-SMI 470.161.03
  • Python 3.6.9
  • PyTorch 1.10.1+cu102
  • 由 Python 包引发的崩溃sentence-transformers==2.2.2
  • 主板 AMD-Ryzen-7-2700X

尝试解决问题

  • 重新安装 CUDA 和 NVIDA 驱动程序(多次,不同版本)
  • 删除并重新安装虚拟环境中的所有 Python 包
  • 更新了 AMD-Ryzen-7-2700X 的 BIOS 驱动程序
  • Global C-state Control在 BIOS 中禁用正如这里建议的那样
  • Core Performance Boost在 BIOS 中禁用正如这里建议的那样
  • 已检查syslog,在给定时间内没有错误痕迹

我不知道如何获取有关可能的错误的更多信息。有什么想法吗?

答案1

事实证明电源装置损坏了,更换后问题就解决了。

相关内容