大部分相同系统在软重启时挂起

大部分相同系统在软重启时挂起

在为这个问题绞尽脑汁一周之后,我开始寻求其他的想法。

我们有大约 100 个相同的系统,使用带有 J1900 Celeron 处理器的 AAEON PICO-ITX BT01 主板。

每个系统都运行在内核为 3.16.0-0-686 的 Debian Jessie 上。每个系统都以相同的方式使用相同的 clonezilla 映像进行映像。

我们正在经历一种间歇性故障模式,它以三种方式之一表现出来(尽管我认为这三种方式都是同一个根本原因)

1) 在 BIOS 启动画面的最后,它会冻结并且无法恢复。虽然它显示错误代码 99,但此代码始终显示在内核启动之前的瞬间,因此我的感觉是此 BIOS 代码不是诊断性的(它只是屏幕上的最后一项)。禁用 BIOS 启动画面不会显示任何有用的信息,只会显示 BIOS 版本和错误代码。

http://imgur.com/ifse045

2) 在内核启动的最初阶段,系统报告无法唤醒 CPU 核心。然后系统挂起并且无法恢复。

https://i.stack.imgur.com/i2ULd.jpg

3) BIOS 启动后,屏幕输出立即停止,系统挂起且无法恢复。

虽然它们都是来自同一次生产运行并使用相同的硬件,但并非每个主板都会发生这种情况(话虽如此,我们交换了 SSD 并看到了同样的问题,所以我不相信这是 SSD 模块的问题)。

在现场看到这种情况后,我制定了一个测试程序,将系统映像化,然后设置一个 crontask,使其在启动后 60 秒重新启动。我们以这种方式测试系统,由于它们在发生故障时无法恢复,因此 24 小时后,我们将看到哪些系统仍在重新启动,哪些系统未通过测试。

我在这里问这个问题,主要是想看看是否有人有其他想法。我一直与主板制造商保持联系,他们正在测试两个受影响的系统,但还没有结果。我可以对我这里的系统进行任何必要的测试,包括通过的主板和失败的主板。

还有一件重要的事情。硬重启(断电)总是允许系统启动。在大多数情况下,在主板重新通电后的第一次软重启期间,被识别为故障的系统将无法启动。我只在软重启期间见过这种故障模式。

这一直是个谜,除此之外,我喜欢这个硬件,并且愿意继续购买它。

谢谢大家。

答案1

经过与制造商的合作,我们发现了导致此故障的原因,原来是 BIOS 修订错误。我们尝试回滚 BIOS,问题消失。

这应该是早期诊断的步骤,但活到老,学到老!

相关内容