kill -9 并不总是有效-为什么?

kill -9 并不总是有效-为什么?

显然,这涉及到硬件问题。GPU # 8“卡住了”,我无法终止使用它的应用程序。每个应用程序都超时并将问题报告给控制程序 (boinc),但控制程序似乎无法终止应用程序,甚至继续为有缺陷的设备分配其他任务,但所有任务都超时了。所有应用程序仍在运行,因为我可以看到 %cpu 发生变化,偶尔 SHM 值也会发生变化,所以我知道它们正在运行,但我可能误读了正在发生的事情。以下方法不起作用

jstateson@h110btc:/usr/bin$ boinccmd --quit
can't connect to local host

root@h110btc:/var/lib/boinc/projects# sudo killall -v boinc
boinc: no process found

sudo kill -9 12374

htop 显示 CPU% 变化时的活动,但 nvidia-smi 显示 0。

。

答案1

通过四处寻找,我了解到等待 I/O 的进程处于不确定状态且没有响应,并且如果驱动程序实际上与 GPU 失去联系,它就会进入地狱。

我以为还有点希望,因为统计信息列中有一个“R”,但如果 nvidia-smi 说“找不到设备请重新启动”,那么就没什么办法了。另一方面,在 Windows 中,我偶尔会在屏幕上看到故障,如果我查看事件日志,我会看到 nvkernreset 或类似的消息,因此不同的操作系统处理问题的方式不同。

相关内容