哪些原因可能导致系统正常运行 1 - 2 小时后重启?

哪些原因可能导致系统正常运行 1 - 2 小时后重启?

大约两周以来,我的系统 (Ubuntu 14.04) 总是自动重启(似乎会冻结一小会儿)。重启问题始于我更新 BIOS 的时候,因为我的鼠标出现了奇怪的断线现象。鼠标在移动时有时会卡顿。它看起来像是因为激光波动而断电了一小会儿。无论如何,我更新了 BIOS,鼠标问题解决了,但重启问题似乎就是在这个时候开始的。我不确定这是软件问题还是硬件问题,但我认为是硬件问题,因为重启发生在启动计算机后大约 1 1/2 - 2 小时。如果是软件问题,错误可能会随机出现。如果它自动重启,那么在新会话中我就不会再遇到任何重启。似乎需要从新启动计算机才能导致此问题。我从来没有在会话中遇到过两次这个问题,所以似乎只要我在几个小时内不关闭计算机,问题就会消失(但这也可能是巧合)。

到目前为止,我尝试缩小问题范围的方法如下:

  • 我检查了系统日志,但在重启日志条目之前没有任何重要信息。之前 openVPN 总是运行,但一次是在 9 分钟前,一次是在 16 分钟前,所以我认为这不是 OpenVPN 的问题。[更新] 这不是 OpenVPN,因为如果没有它,它也崩溃了。
  • 我更换了电源,现在使用功率更大的电源。因此,电源功率弱或损坏肯定不是电源问题。
  • 我从另一个供应商处更换了一个新的鼠标。
  • 我断开了两个 RAID0 HDD 和两个 DVD/RW ROM。
  • 我总是检查 CPU 温度。它总是在 40 - 50°C 之间
  • 我能够使用 auditd 记录崩溃,但崩溃前访问系统的最后一个进程是 Java(因为我正在运行 Eclipse)。但我不认为这与崩溃有任何关系。
  • 我执行了两次 memtest,持续了 4 个半小时,没有错误,也没有重启
  • 我让 Ubuntu 运行而不启动任何应用程序 - 5 小时后没有崩溃,但几个小时后在使用计算机(Eclipse、浏览器)时崩溃(最新尝试)。

根据描述,还有其他什么原因会导致此行为吗?(我接下来还将测试 RAM,并且不会恢复 BIOS,因为这似乎是一种解决方法,而不是解决方案,以防万一。一定是其他地方出了错误,我无法想象是 RAM 出了问题,因为它不会在 1-2 小时后冻结并重新启动)。

[更新] 似乎崩溃(至少经常)恰好发生在两小时后。我尝试检查 BIOS 中是否有可能导致这种情况的任何原因。我发现我的时钟慢了 2 个小时(因为 BIOS 更新我没有设置它)。我无法想象错误的时钟如何导致重新启动时崩溃,但我现在将其设置为正确的时间。或者对此有什么想法?

[更新] 即使在设置了正确的 BIOS 时间后,我也在不到 2 小时内就冻结了,所以这与此无关。我执行了 4 个半小时的 memtest - 没有错误,并且在 memtest 期间没有重新启动。也许这可以解释这不是硬件错误。我很快会再试一次。如果在内存测试时它没有死机并再次重启,我可以说这不是硬件问题吗? 但既然是软件问题,为什么电脑重启一次之后就不会再出现这种情况了呢?

[更新] 显然,运行 memtest 时它不会崩溃。所以这似乎不是硬件错误。我将再次运行 memtest 以确保无误,但它越来越表明这可能是软件错误。但如果是这样,为什么重启后不会发生这种情况?这是个大问题。您可能会争辩说,重启时 RAM 并未完全清空,但这似乎有点牵强,不是吗?也许这表明 Java 会导致崩溃,因为 JVM 与其他应用程序相比更多地与低级 API 交互。最近的崩溃可能符合这一假设:只要我不使用 Eclipse,它就不会崩溃。另一方面,它无法解释为什么它这么晚才崩溃,直到开始使用 Eclipse 后 2 小时才崩溃。

[更新] 我尝试了解决方案这里但我没有看到任何信息,没有内核恐慌,什么都没有,这显示了导致在 9:49:31 发生重启的原因。如您所见,之前没有发生任何事情:

Jul 12 06:56:36 ubuntu anacron[1329]: Job `cron.daily' terminated
Jul 12 06:56:36 ubuntu anacron[1329]: Normal exit (1 job run)
Jul 12 07:17:01 ubuntu CRON[3312]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
Jul 12 07:30:01 ubuntu CRON[3340]: (root) CMD (start -q anacron || :)
Jul 12 07:30:01 ubuntu anacron[3343]: Anacron 2.3 started on 2014-07-12
Jul 12 07:30:01 ubuntu anacron[3343]: Normal exit (0 jobs run)
Jul 12 07:47:50 ubuntu ovpn-client[1388]: VERIFY OK: depth=1, C=AT, ST=AT, L=Vienna, O=MYCOMPANY, OU=MYCOMPANY, CN=OpenVPN-CA, name=vpn.MYCOMPANY.com, emailAddress=myemail.com
Jul 12 07:47:50 ubuntu ovpn-client[1388]: VERIFY OK: nsCertType=SERVER
Jul 12 07:47:50 ubuntu ovpn-client[1388]: VERIFY OK: depth=0, C=AT, ST=AT, L=Vienna, O=MYCOMPANY, OU=MYCOMPANY, CN=server, name=vpn.MYCOMPANY.com, emailAddress=myemail.com
Jul 12 07:47:51 ubuntu ovpn-client[1388]: Data Channel Encrypt: Cipher 'BF-CBC' initialized with 128 bit key
Jul 12 07:47:51 ubuntu ovpn-client[1388]: Data Channel Encrypt: Using 160 bit message hash 'SHA1' for HMAC authentication
Jul 12 07:47:51 ubuntu ovpn-client[1388]: Data Channel Decrypt: Cipher 'BF-CBC' initialized with 128 bit key
Jul 12 07:47:51 ubuntu ovpn-client[1388]: Data Channel Decrypt: Using 160 bit message hash 'SHA1' for HMAC authentication
Jul 12 07:47:51 ubuntu ovpn-client[1388]: Control Channel: TLSv1, cipher TLSv1/SSLv3 DHE-RSA-AES256-SHA, 1024 bit RSA
Jul 12 08:17:01 ubuntu CRON[3427]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
Jul 12 08:47:50 ubuntu signond[3481]: ../../../../src/signond/signondaemon.cpp 388 init Failed to SUID root. Secure storage will not be available. 
Jul 12 08:47:50 ubuntu ovpn-client[1388]: TLS: tls_process: killed expiring key
Jul 12 08:47:51 ubuntu ovpn-client[1388]: TLS: soft reset sec=0 bytes=36908/0 pkts=703/0
Jul 12 08:47:51 ubuntu ovpn-client[1388]: VERIFY OK: depth=1, C=AT, ST=AT, L=Vienna, O=MYCOMPANY, OU=MYCOMPANY, CN=OpenVPN-CA, name=vpn.MYCOMPANY.com, emailAddress=myemail.com
Jul 12 08:47:51 ubuntu ovpn-client[1388]: VERIFY OK: nsCertType=SERVER
Jul 12 08:47:51 ubuntu ovpn-client[1388]: VERIFY OK: depth=0, C=AT, ST=AT, L=Vienna, O=MYCOMPANY, OU=MYCOMPANY, CN=server, name=vpn.MYCOMPANY.com, emailAddress=myemail.com
Jul 12 08:47:51 ubuntu ovpn-client[1388]: Data Channel Encrypt: Cipher 'BF-CBC' initialized with 128 bit key
Jul 12 08:47:51 ubuntu ovpn-client[1388]: Data Channel Encrypt: Using 160 bit message hash 'SHA1' for HMAC authentication
Jul 12 08:47:51 ubuntu ovpn-client[1388]: Data Channel Decrypt: Cipher 'BF-CBC' initialized with 128 bit key
Jul 12 08:47:51 ubuntu ovpn-client[1388]: Data Channel Decrypt: Using 160 bit message hash 'SHA1' for HMAC authentication
Jul 12 08:47:51 ubuntu ovpn-client[1388]: Control Channel: TLSv1, cipher TLSv1/SSLv3 DHE-RSA-AES256-SHA, 1024 bit RSA
Jul 12 09:17:01 ubuntu CRON[3561]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
Jul 12 09:49:31 ubuntu rsyslogd: [origin software="rsyslogd" swVersion="7.4.4" x-pid="1038" x-info="http://www.rsyslog.com"] start
Jul 12 09:49:31 ubuntu rsyslogd: rsyslogd's groupid changed to 104
Jul 12 09:49:31 ubuntu rsyslogd: rsyslogd's userid changed to 101
Jul 12 09:49:31 ubuntu kernel: [    0.000000] Initializing cgroup subsys cpuset
Jul 12 09:49:31 ubuntu kernel: [    0.000000] Initializing cgroup subsys cpu
Jul 12 09:49:31 ubuntu kernel: [    0.000000] Initializing cgroup subsys cpuacct
Jul 12 09:49:31 ubuntu kernel: [    0.000000] Linux version 3.13.0-24-generic (buildd@batsu) (gcc version 4.8.2 (Ubuntu 4.8.2-19ubuntu1) ) #47-Ubuntu SMP Fri May 2 23:30:00 UTC 2014 (Ubuntu 3.13.0-24.47-generic 3.13.9)
Jul 12 09:49:31 ubuntu kernel: [    0.000000] Command line: BOOT_IMAGE=/vmlinuz-3.13.0-24-generic root=UUID=87171c9e-5208-483b-922b-ecc1d1ccc940 ro quiet splash acpi=force acpi_osi=linux pci=nocrs vt.handoff=7
Jul 12 09:49:31 ubuntu kernel: [    0.000000] KERNEL supported cpus:
Jul 12 09:49:31 ubuntu kernel: [    0.000000]   Intel GenuineIntel
Jul 12 09:49:31 ubuntu kernel: [    0.000000]   AMD AuthenticAMD
Jul 12 09:49:31 ubuntu kernel: [    0.000000]   Centaur CentaurHauls
Jul 12 09:49:31 ubuntu kernel: [    0.000000] e820: BIOS-provided physical RAM map:
Jul 12 09:49:31 ubuntu kernel: [    0.000000] BIOS-e820: [mem 0x0000000000000000-0x000000000009ebff] usable
Jul 12 09:49:31 ubuntu kernel: [    0.000000] BIOS-e820: [mem 0x000000000009ec00-0x000000000009ffff] reserved
Jul 12 09:49:31 ubuntu kernel: [    0.000000] BIOS-e820: [mem 0x00000000000e6000-0x00000000000fffff] reserved
Jul 12 09:49:31 ubuntu kernel: [    0.000000] BIOS-e820: [mem 0x0000000000100000-0x00000000cff8ffff] usable
Jul 12 09:49:31 ubuntu kernel: [    0.000000] BIOS-e820: [mem 0x00000000cff90000-0x00000000cffa7fff] ACPI data
Jul 12 09:49:31 ubuntu kernel: [    0.000000] BIOS-e820: [mem 0x00000000cffa8000-0x00000000cffcffff] ACPI NVS
Jul 12 09:49:31 ubuntu kernel: [    0.000000] BIOS-e820: [mem 0x00000000cffd0000-0x00000000cfffffff] reserved
Jul 12 09:49:31 ubuntu kernel: [    0.000000] BIOS-e820: [mem 0x00000000fff00000-0x00000000ffffffff] reserved
Jul 12 09:49:31 ubuntu kernel: [    0.000000] BIOS-e820: [mem 0x0000000100000000-0x00000001afffffff] usable

[更新]
这次我又用auditd记录了一次崩溃,不过这次不是Java(最后一个进程),而是Firefox。不过这不是Firefox的问题,因为Chrome也会崩溃。

以下是两次崩溃(Java 和 Firefox)的比较。这是崩溃发生的最后一个进程:

type=SYSCALL msg=audit(1404406767.671:1101024): arch=c000003e syscall=202 success=yes exit=0 a0=7f3b84ad5a28 a1=81 a2=1 a3=0 items=0 ppid=4384 pid=4441 auid=4294967295 uid=1000 gid=1000 euid=1000 suid=1000 fsuid=1000 egid=1000 sgid=1000 fsgid=1000 ses=4294967295 tty=(none) comm="java" exe="/usr/lib/jvm/java-7-oracle/jre/bin/java" key=(null)


type=SYSCALL msg=audit(1405241810.767:703964): arch=c000003e syscall=7 success=yes exit=0 a0=7f51bac49780 a1=7 a2=0 a3=3 items=0 ppid=1750 pid=3243 auid=4294967295 uid=1000 gid=1000 euid=1000 suid=1000 fsuid=1000 egid=1000 sgid=1000 fsgid=1000 ses=4294967295 tty=(none) comm="firefox" exe="/usr/lib/firefox/firefox" key=(null)

答案1

该软件不太可能导致您的内核崩溃。无论如何,现在您已经通过正常升级获得了新版本的内核(以及有问题的软件包),问题不太可能持续存在。此外,其他人应该也会遇到同样的情况。

运行了两个小时,并且根据你的描述,运行了要求高的应用程序,这暗示了一些过热相关的问题或其他硬件故障。排除这种情况:确保气流畅通,风扇运转正常(例如,没有通过 BIOS 关闭或损坏)。运行硬件检查(例如,memtest)以排除很少使用的坏内存。

相关内容