我遇到了一个问题,但不知道该如何解决。
我正在使用“Matlab”进行“繁重”计算,这些计算占用了 100% 的 CPU,有时甚至会持续数天。最近,在运行时,我的系统开始完全冻结,我必须强制关机才能重新启动它。通常它会工作数小时才会发生这种情况。
我目前正在运行 ubuntu 16.04,内核版本:4.4.0-166-generic。
其他系统信息:我有 Intel Core i7-6800K CPU @ 3.40GHz × 12 和 32GB RAM。
我对系统冻结时间有很好的指示,因为我的脚本每隔几秒就会写入缓存文件,所以我可以在冻结后检查它发生的时间。但是,当我检查 /var/logs 中的各种日志时,在冻结时间附近没有任何可疑活动!
此外,我确实知道 CPU 在运行过程中会发热(最高可达 90 摄氏度),但是过去也出现过这种情况,没有任何问题。
不幸的是,我的机器上没有“Windows”,所以我无法检查这是硬件还是软件问题。
更新:
我清理了电脑和 CPU 散热器上的灰尘,继续运行计算。电脑时不时地会死机,但似乎没有原因。CPU 温度现在也较低 - 不超过 80C,但问题仍然存在。在电脑死机时的系统日志中,我找不到任何“可疑”活动。最近,我在电脑上工作时也遇到了死机,没有运行任何程序,因此 CPU 活动很少!
我不知道是什么原因造成的。
关于如何解决该问题有什么想法吗?
答案1
我注意到了类似的行为,但不一定与高负载有关。我的服务器运行的是 4.4.0-164,断电后启动了当时最新的 4.4.0-166。然后,过了一段时间它就死机了。死机期间没有终端输出,没有转储等。第三次之后,我使用 4.4.0-164 启动,它目前已经运行了 10 天,没有任何问题。
也许尝试运行较旧的内核。