如何评估计算机关闭的原因?

如何评估计算机关闭的原因?

我有一台旧笔记本电脑(大概有 10 年的历史),在上面最小化安装了 Debian 10。我用它来下载和存储媒体文件,我从家庭网络上的其他机器上复制这些文件。我通常将其盖子关闭,并通过 ssh 访问它。我已经让它这样做了大约一年,并且它通常运行顺利 - 排除每月一次左右的随机崩溃,也许。不过,最近它开始崩溃得更频繁:每周一次,有时在我启动它并让所有东西启动并运行后几分钟到一个小时内,甚至期间启动。

我运行了 memtest86+ 和 SMART 测试,两者都没有报告任何问题。我也检查了核心温度,似乎也不是问题。就像我说的,这是一台旧笔记本电脑,所以可能有些东西刚刚达到其使用寿命,但我想确保情况确实如此......

我还应该注意什么来评估这些随机崩溃/关闭的原因?我有兴趣弄清楚这是硬件还是软件问题,以及如何解决它,或者计算机的哪些部分仍然可以挽救。

也很乐意在这里转储任何需要的额外信息:)


按照这条评论,粘贴 的输出dmesg --level=alert,crit,err,warn

[    0.225970] ACPI BIOS Warning (bug): Incorrect checksum in table [ATKG] - 0xB0, should be 0x4A (20180810/tbprint-177)
[    0.362067] core: PEBS disabled due to CPU errata
[    0.363544] mtrr: your CPUs had inconsistent variable MTRR settings
[    0.424461] Expanded resource Reserved due to conflict with PCI Bus 0000:00
[    3.474163] Unstable clock detected, switching default tracing clock to "global"
               If you want to keep using the local clock, then add:
                 "trace_clock=local"
               on the kernel command line
[    3.728460] ACPI Warning: SystemIO range 0x0000000000000828-0x000000000000082F conflicts with OpRegion 0x0000000000000800-0x000000000000084F (\PMIO) (20180810/utaddress-213)
[    3.728473] ACPI Warning: SystemIO range 0x0000000000000530-0x000000000000053F conflicts with OpRegion 0x0000000000000500-0x000000000000053F (\GPIO) (20180810/utaddress-213)
[    3.728481] ACPI Warning: SystemIO range 0x0000000000000500-0x000000000000052F conflicts with OpRegion 0x0000000000000500-0x000000000000053F (\GPIO) (20180810/utaddress-213)
[    3.728488] lpc_ich: Resource conflict(s) found affecting gpio_ich

答案1

尽管从概念上讲可能涉及一些驱动程序问题,但此类故障很可能与硬件相关。很难想出一个可遵循的程序来诊断这一点。

人们绝对应该梳理日志以寻找线索,但是,遗憾的是,当计算机像所描述的那样快速停机时,日志通常没有帮助,因为它们没有可靠地写入或保留在磁盘上。如果您确实想解决这个问题,可能需要考虑登录到远程主机,以便在不崩溃的系统上捕获任何消息。

正如一些评论所示,使用以下工具:

dmesg
sensors
dmesg --level=alert,crit,err,warn
journalctl -xe / journalctl --full and/or examine files in /var/logs

对于远程日志记录,请查看rsyslog(或具有类似功能的其他代理)。

根据您想要保护硬件的努力程度,交换内存。虽然内存测试人员可以发现内存错误,但根据我的经验,它们并不是确定内存故障的可靠方法。换句话说,我的内存通过了内存测试,但是当更换内存后,故障就消失了。 (我确实在多个系统中看到过内存是间歇性的 - 但这并不常见。)

硬盘驱动器故障通常不会使系统崩溃得如此严重/快速,以至于您看不到发生了什么,无论如何,日志中肯定会有失败扇区的证据,因为我从未见过硬盘驱动器出现如此严重的故障一次性进行,但定期间歇性进行。我猜这是硬盘问题的可能性几乎为零。

我将系统拆开并进行清洁。除非这是一台笔记本电脑,否则将其拆开然后重新组装起来会有所帮助。在旧硬件上,将卡/RAM 重新插入插槽中是一件好事。断开/重新连接电缆可能会有所帮助。确保所有冷却风扇和气流畅通无阻。扭动电源连接器,确保没有任何部件抽搐并且 CPU/GPU 散热器紧密。我曾经遇到过设计糟糕的电源线做类似的事情并随机导致系统瘫痪(因此我现在至少远离一个品牌)。这些都不是火箭科学,但它可以解决一些问题。

如果它是一台笔记本电脑……那么,祝你好运……它们更容易出现问题……跌落、当电缆涉及摔落时导致东西破裂/破裂等。破裂的电路板真的很容易造成损坏。伟大的“随机”问题来源。确保通风口畅通无阻。我有一台笔记本电脑,它必须远远高于它所坐的表面,否则它会过热并做出非常糟糕的事情,但我真的不希望热量在启动过程中导致崩溃。

相关内容