运行相同操作系统映像的多个相同系统上出现内核崩溃

运行相同操作系统映像的多个相同系统上出现内核崩溃

我正在尝试诊断一个有趣的问题,它影响了十几台或更多台相同的计算机。最近,内核崩溃错误发生率有所增加,但我不知道如何诊断原因。

情况是,我们购买了许多相同的机器,我们在这些机器上运行 Debian Wheezy 来播放 flash 文件和 AVI 内容;它们整天都只是播放一系列全屏视觉效果。我们购买这些机器已经有一段时间了(这是一台 LG 制造的标牌电脑),但在上个月,我们的内核恐慌错误大幅增加。

我拍了每个错误的照片,通常它们每次都会引用一个相当随机的进程。它是 ntpd、mplayer 或任何其他看似不相关的进程。当崩溃转储输出到屏幕上时,我看不到任何可以明确识别这些崩溃可能发生的原因的信息。

因此,我在大约 8 台机器上运行了 memtest86(所有之前出现过恐慌的机器),没有发现任何错误。fsck 返回的文件系统没有问题。

作为一个在处理 Linux 崩溃方面没有太多经验的人,我非常谦虚地请求帮助,寻求有关如何尝试找出该问题根源的建议。

  • 最初它似乎与 HDMI 输出有关,但我们切换到 VGA 输出,经过几天的稳定后,我们遇到了三次内核恐慌
  • 该芯片是运行 Intel HD Graphics 的 i5-520M 处理器,据我所知,它受内核 3.2 中的 Wheezy Intel 驱动程序支持,但也许我弄错了。
  • 这些恐慌确实与大约同一时间生产的机器有关,这表明可能存在硬件问题,但我无论如何也无法发现它。

我读了大量关于 kdump 的资料,但却不知道如何在 Debian 上安装它。

我还有什么可以尝试的吗?在将出现内核崩溃的机器从站点移走并送回我的办公室后,我可以尝试查看哪些日志?我希望排除软件或硬件,并更接近解释。如果我们必须退回这些计算机或将它们从我们的运营中完全移除,我希望尽可能了解原因。

抱歉我的问题比较模糊,但还是非常感谢您的帮助。

答案1

我最终找到了这个问题的答案。

通过查看dmesg日志我意识到在某些情况下 SSD 条目具有不同的十六进制字符串,具体取决于我所连接的引擎。

由于我们用标准尺寸的分区对这些引擎进行映像处理,我没有意识到这一点,但其中一些引擎配备了 64gb Sandisc U100 SSD,而一些引擎配备了 32gb 驱动器。

只有 64GB 版本出现内核崩溃。所以我不知道这是否是我们的内核、SSD 固件或其他方面的问题,但我们的解决方案现在肯定是硬件,我们可以更换驱动器,让一切顺利。

相关内容