具有 Ubuntu 16.04 和 4.4.0-137-generic 内核的 NVIDIA DevBox 会随机重启并在夜间自动关闭

具有 Ubuntu 16.04 和 4.4.0-137-generic 内核的 NVIDIA DevBox 会随机重启并在夜间自动关闭

我最近说过使用具有华硕 BIOS 的 NVIDIA DevBox,以及上面提到的内核版本和 ubuntu 版本。由于某些原因,机器实际上不能过夜,就像其他笔记本电脑和/或电脑机器一样:您可以将其留在机器上,几分钟后它会自动锁定和/或进入睡眠模式- 第二天,一旦您移动鼠标或在键盘上输入内容,计算机就会“取消挂起”或唤醒,您的所有程序都会打开并按照前一天离开它们的方式运行。

由于某种奇怪的原因,这台机器没有发生这种情况。在我之前有一位以前的用户大约一年没有碰过这台机器,所以他/她可能已经做了某种有关节能的配置,但当我检查电源选项时,一切看起来都很好在我的机器中(我将其暂停 - 1 小时,并锁定 1 小时)。我想我注意到的有趣的事情是,如果我午餐后回来并且机器被锁定/暂停,它会毫无问题地回到会话中,但如果我将其放置过夜,那么我第二天就会到达,然后机器已自动关闭。该建筑物已锁定,因此其他人不可能在夜间实际按下电源关闭按钮,而且我还检查了其他用户的历史命令(我们都有管理员权限,并且他不使用计算机)检查远程访问关闭情况,也不会弹出。

我在几个地方读到,由于电源不良或损坏,这可能是一个发热问题,但我如何检查是否是这种情况呢?我有 psensor 应用程序,但它似乎只实时记录温度,而不将它们保存到文件中,我可以在文件中检查任何显卡(有 4 个)或主板的温度。

诊断机器自动关机的另一种方法是什么?我怎样才能知道这是发热问题还是电源故障?或者可能是内核问题?除了我在安装方面很有经验的 NVIDIA 驱动程序之外,这台机器目前还没有安装任何真正的密集程序(几乎是新的),所以也许我可以考虑全新安装 Ubuntu? ——尽管如果存在硬件问题,这几乎毫无意义

其他详情:

NVIDIA 驱动程序已正确安装。当我强制执行以下命令时,驱动程序被窃听,机器响应非常糟糕,并且机器连续 2 天开启(这对于这些机器来说应该是轻而易举的事情),直到在 5 分钟后很难开启半夜连续2次随机重启:

$ unset autologoff

我必须稍后正确地重新安装驱动程序(并将自动记录选项重新设置为打开),并且系统返回到当前状态,如果超过 24 小时没有执行任何操作(不执行任何操作),则“需要”自行关闭因为它没有接收人工输入,但后端进程可能仍在运行)。

  • 主板:华硕 EATX DDR4 LGA 2011-3 主板 X99-E WS/USB 3.1
  • CPU:Intel Xeon E5-2690 v4 2.6 GHz 14 核 LGA 2011 处理器 135 W
  • 散热器:Corsair Hydro 系列 H80i v2 极致性能液体 CPU 散热器,黑色。
  • 电源:EVGA SuperNOVA 1600 P2 80+ 白金,1600W ECO 模式完全模块化 NVIDIA SLI 和 Crossfire 就绪 10 年保修电源 220-P2-1600-X1
  • 显卡:4 Titan X Pascal。

pci=noaer在发现机器给我这个错误后,我在启动中添加了以下内容:https://askubuntu.com/questions/771899/pcie-bus-error-severity- Corrected

输出:

$ cat /proc/cmdline

BOOT_IMAGE=/boot/vmlinuz-4.4.0-137-generic.efi.signed root=UUID=569dd2ad-c5a6-4ae4-a167-f849b8f6ae9e ro quiet splash pci=noaer vt.handoff=7

答案1

通过将系统上传到 Ubuntu 18.04 解决了问题。该错误的根源尚未找到,但我怀疑它与内核可能与显卡、BIOS 和 16.04 Ubuntu 版本不匹配有关。

相关内容