上周,我为处理邮件和 Samba 共享而自行构建的 mini-ITX 机器因文件系统相关问题而两次出现内核崩溃。昨晚,我在向机顶盒客户端传输电影时注意到了完整性错误(视频伪影),因此我开始四处寻找。
内置硬盘和外置硬盘均使用 Linux 软件 RAID,在任一镜像上,如果我对视频等相当大的文件执行 md5sum 并重复执行,每次都会得到不同的校验和(我应该注意,一个是 ext4,另一个是 JFS)。我从 USB 启动到恢复模式,发生了同样的事情。我还没有尝试在另一台计算机上读取外部镜像,但我确实安装了其中一个组成磁盘,它看起来不错,至少它在那里给出了一致的 md5sum。
因此,文件系统已被排除(它发生在 ext4 和 JFS 上),硬盘可能出问题了(这将是一个令人难以置信的巧合),SATA 控制器可能出问题了,因为它发生在两个完全独立的控制器上,损坏的内核模块或某些东西出问题了,因为它甚至在从救援磁盘启动时也在这样做。
这种情况发生在两组不同的驱动器上,由两个不同的 SATA 控制器控制,运行两个不同的文件系统,并且在启动两个不同的内核时行为仍然存在,这让我认为唯一合理的选择是主板出了什么大问题。这块主板已经是一家我不太信任的公司(Zotac)的 RMA 替代品,所以这并不像平常那样令人惊讶。
顺便说一下,这是 Ubuntu Server 10.04,64 位,安装在带有 Atom N230 的 Zotac IONITX-C(我认为)主板上。
是否有人有其他想法、我应该进行哪些诊断等等?
编辑:我忘了提两件事:当我从 USB 密钥启动时,我确实在两个 md 设备上运行了 fsck。
恐慌看起来是这样的:
我尝试在 Google 上搜索其中几个,但没有成功,但我认为更有可能是硬件的问题;我只是不知道具体是哪个片硬件。
编辑2:刚刚运行了 memtest86,没有一个测试通过。测试模式的最低有效 2 个字节似乎总是读错。仍然不确定是 RAM 还是芯片组的问题,而且我没有多余的 RAM 来测试。
答案1
我认为 RAM 有问题,或者可能是芯片组出了问题。您能将 RAM 与已知良好的 RAM 交换一下,看看效果如何吗?-(大多数现代 Linux 在安装光盘上也有一个“memtest”选项,如果您没有已知的良好 RAM,您可以尝试一下,但我建议使用良好的 RAM 作为更好的测试。