当我执行在 CUDA 上运行的 python 脚本时,我的机器会冻结然后崩溃,而不会显示任何错误消息。两周前,在同一台设备上执行相同的脚本时没有出现问题。
细节
- Ubuntu 18.04
- 显卡 GeForce GTX 2070 SUPER
- Cuda 编译工具,版本 12.0,V12.0.76(也尝试过其他版本,例如 9 和 10.1、10.2)
- 驱动程序:NVIDIA-SMI 470.161.03
- Python 3.6.9
- PyTorch 1.10.1+cu102
- 由 Python 包引发的崩溃
sentence-transformers==2.2.2
- 主板 AMD-Ryzen-7-2700X
尝试解决问题
- 重新安装 CUDA 和 NVIDA 驱动程序(多次,不同版本)
- 删除并重新安装虚拟环境中的所有 Python 包
- 更新了 AMD-Ryzen-7-2700X 的 BIOS 驱动程序
Global C-state Control
在 BIOS 中禁用正如这里建议的那样。Core Performance Boost
在 BIOS 中禁用正如这里建议的那样。- 已检查
syslog
,在给定时间内没有错误痕迹
我不知道如何获取有关可能的错误的更多信息。有什么想法吗?
答案1
事实证明电源装置损坏了,更换后问题就解决了。