诊断突然、非命令性断电 (Debian)

诊断突然、非命令性断电 (Debian)

今天早上我的台式机出现了一个奇怪的习惯:启动并登录后不久,它就突然关机了。发出像继电器打开一样的机械噪音,风扇旋转停止,但电源灯仍然亮着。我重新启动后,同样的事情再次发生。这种情况发生需要几秒到几分钟的时间。当我进入 BIOS 设置时,我收到一条消息,说它们已被重置。最令人困惑的是,我认为我最近没有更改任何可以解释这种情况的东西。

显然我不是希望有人能从这些琐碎的细节中诊断出问题。但我想知道如何收集有关关机的更多信息。我正在运行 Debian Buster。

我真的很困惑 - 在发生这样的事情之后我能得到什么(如果有的话)“黑匣子”录音?

答案1

您可以检查关机时的系统日志。根据错误的突然性和严重性,您可能找不到任何信息,但值得一试。

如果rsyslog守护进程正在运行,您应该会在同一目录中找到痛苦的文本日志/var/log/syslog、内核日志以及/var/log/kern.log更多服务特定的日志文件。

如果rsyslog未使用,请检查目录是否/var/log/journal存在,其中包含直接来自 Debian 上的主要 syslog 守护程序的持久二进制格式系统日志systemd-journald。如果不存在,这些日志仅保存在 RAM 中,因此在崩溃后会丢失。但您可以通过创建该目录来启用持久系统日志:

sudo mkdir /var/log/journal

崩溃后可以通过以下方式查看这些内容:

sudo journalctl

注意内核错误,这些错误将在日志输出中以红色显示。您可能可以识别在崩溃前启动或执行任务的罪魁祸首服务、cron 作业或类似服务,或者实际上是电压或温度警告。

答案2

我怀疑操作系统或者 PC 的 BIOS 检测到了一些危险的“情况”,很可能是温度,但也可能是某些电压超出范围。

这也可能是主板电池故障造成的。

  • 我会开始测量电池电压(把它拿出来测量。大多数电池都是 3V 型,未插入时测量值应高于 3V。插入时电压不应下降(但很难测量)。

  • 关闭时,拔下硬盘电源线(这样机器就不会启动)。打开电源,进入 BIOS,检查机器是否单独存在同样的问题。等待时,检查 BIOS 的硬件页面(它应该显示电压和温度。电压应在其标称值的 5% 以内。检查温度限制是否合理,温度单位是​​否正确(华氏度与摄氏度!))监测温度几分钟,检查温度是否稳定在合理(低)值。如果温度继续上升,可能是 CPU 散热器安装不正确?

  • 重新连接磁盘电源(关闭时)。如果问题再次出现,可能是额外的负载导致 CPU 温度升高。尽快进入 Debian 硬件温度监控程序并监控温度和电压是否存在异常(“设置”限制和实际值)

无论如何,问题可能出在电源或 CPU 温度上。记下环境温度,检查系统是否能在环境温度较低的情况下工作更长时间。

相关内容