Ubuntu 挂起后需要重新启动,如何识别罪魁祸首进程?

Ubuntu 挂起后需要重新启动,如何识别罪魁祸首进程?

在将安装了 ubuntu 19.0.4 的新机器放置大约一个小时后,我发现来自连接键盘/屏幕的直接会话没有响应,屏幕空白。此外,在现有 ssh会话中,按下回车键最多需要一分钟才能响应:并且实际上不会运行任何命令。ssh无法建立新会话然而它做过回应pings。行为似乎是:599.99% cpu utilization so no soup for you!。但我无法进入系统,因此无法验证。

这是Alienware R8一个集成的和nVidiaGPU 的版本。之所以提到这一点,是因为这种行为似乎是低级c或设备驱动程序库陷入了紧密循环或耗尽了所有内存。再次重申,这只是纯粹的猜测。

我查看了日志的使用情况dmesg,但似乎重置重启后。

最终的问题是——什么工具可能有助于隔离有问题的软件、驱动程序和/或硬件?

更新@EduardoTrapani 即将给出答案。我确实在var/log/kern.log

Apr  9 20:04:27 alienware kernel: 
[   10.686707] nvidia: module verification failed: signature 
and/or required key missing - tainting kernel

任何状况之下为什么特定操作失败导致挂起是完全不同的话题。那个答案引导我去寻找线索。

答案1

您可以在此文件 /var/log/kern.log 中看到内核日志(/var/log/kern.log* 中可能有较旧的内核日志,具体取决于您的 logrotate 策略)。

dmesg将显示内核环形缓冲区的当前内容,并且该缓冲区仅保存自启动以来的有限数量的消息。该-F标志可以从现有文件中读取,例如

$ sudo dmesg -F /var/log/kern.log

相关内容