答案1
我们遇到过类似的情况,机器在运行 10 分钟到 6 小时后会死机。我们在两台不同的全新机器上使用 Linux Mint 18.2 和 Ubuntu 16.04,这些机器都搭载了 AMD FX(tm)-8350 八核处理器。
这似乎与处理器负载无关。不可能是由压力引起的。它可能发生在核心温度较低时。请注意,我们syslog
显示了几乎相同的错误消息,每隔 3 分钟重复一次。
Oct 19 14:00:41 blanked_out_usr-desktop kernel: [21450.705896] INFO: rcu_sched detected stalls on CPUs/tasks:
Oct 19 14:00:41 blanked_out_usr-desktop kernel: [21450.705909] 7-...: (3 GPs behind) idle=5df/1/0 softirq=362596/362596 fqs=5806
Oct 19 14:00:41 blanked_out_usr-desktop kernel: [21450.705913] (detected by 4, t=15002 jiffies, g=556997, c=556996, q=1370)
Oct 19 14:00:41 blanked_out_usr-desktop kernel: [21450.705919] Task dump for CPU 7:
Oct 19 14:00:41 blanked_out_usr-desktop kernel: [21450.705921] swapper/7 R running task 0 0 1 0x00000008
Oct 19 14:00:41 blanked_out_usr-desktop kernel: [21450.705928] 0000000000000010 0000000000000246 ffff8be1cd6d3e70 0000000000000018
Oct 19 14:00:41 blanked_out_usr-desktop kernel: [21450.705933] 7735940000000000 000013745a87802e 0000000000000007 ffff8be1cd6d4000
Oct 19 14:00:41 blanked_out_usr-desktop kernel: [21450.705937] ffff8be1ccffd600 ffffffff826bc300 ffff8be1cd6d0000 ffff8be1cd6d3eb8
Oct 19 14:00:41 blanked_out_usr-desktop kernel: [21450.705942] Call Trace:
Oct 19 14:00:41 blanked_out_usr-desktop kernel: [21450.705954] [<ffffffff81f19527>] ? cpuidle_enter+0x17/0x20
Oct 19 14:00:41 blanked_out_usr-desktop kernel: [21450.705959] [<ffffffff818c7a0a>] ? call_cpuidle+0x2a/0x50
Oct 19 14:00:41 blanked_out_usr-desktop kernel: [21450.705963] [<ffffffff818c7dee>] ? cpu_startup_entry+0x29e/0x350
Oct 19 14:00:41 blanked_out_usr-desktop kernel: [21450.705967] [<ffffffff818518b1>] ? start_secondary+0x151/0x190
在我们开始使用专有的 AMD 处理器微码固件(amd64-microcode / 版本 2.20160316.1)后,两台机器一开始都运行正常,没有出现明显的停顿。然而,只有在内核更新(Mint 机器更新至 4.10,Ubuntu 机器更新至 4.13)后,机器才不再出现停顿。这是在约 48 小时内进行的评估。