ECC 错误,无内存测试错误

ECC 错误,无内存测试错误

我最近购买了一台 HP XW6400 工作站(双 CPU、四内存通道)。除了购买电脑之外,我还购买了 2 根品牌和外观相同但不匹配的 RAM 内存条(数字和辅助贴纸不匹配,但它们应该是匹配的)和 2 个 Xeon 5160 CPU。组装好之后,我定期在启动时进行 ECC 校正,因此我购买了更多匹配的 RAM 内存条;安装下一组内存后,我遇到了同样的错误。因此我买了一块主板,但仍然遇到同样的错误。内存控制器未集成到处理器中,因此我没有太注意它们。我对每根内存条分别进行了 2 小时的快速运行 memtest,任何内存条上都没有出现任何错误。但我在多次重启时仍然会得到 ECC 校正。有时它会指出它已纠正错误,有时则是无法纠正的致命错误。

它们很小,很热,所以我把它们正上方的风扇翻过来,这样风扇就会对着它们吹。北桥也由风扇冷却。通过硬件监视器测得的温度似乎都很正常。

此外,如果我插入所有 4 根内存条,它几乎每次都会在启动几分钟内锁定。而插入 2 根内存条时,它几乎从未锁定(在我购买新主板之前使用了 2 周);它只会在重新启动时记录 ECC 更正或错误。

所有内存都是 DDR2 5300F 全缓冲 ECC 内存。

第一套是惠普内存,但从编号和贴纸来看,它们不是一对,但乍一看它们看起来是一样的。大多数编号也相同。但它们是在世界不同地区制造的(新加坡和波多黎各)

第二套是金士顿内存但是是配套的。

我的假设是,金士顿内存在双通道模式下存在兼容性问题,而 HP 内存不是匹配的,这会导致双通道兼容模式下出现问题,而这四个内存放在一起对于四通道来说简直就是一场兼容性噩梦,所以它会锁定。但实际上,我只是在瞎猜。有什么想法吗?

答案1

我认为是坏的 BIOS 和坏的 CPU 相互作用造成的,而且我认为内存虽然不是最理想的,但并不是真正的主要问题。因此才有了这种盲目的评论。

过去,我偶尔会遇到 CPU 前端总线错误,我将其归咎于内存或主板问题。我发现一份 HP 文档说原始 BIOS 实际上有问题,需要更新,所以我更新了 BIOS。

然后,事情就好转了一点,因为我可以使用所有 4 根内存条运行而不会崩溃,所以接下来我尝试通过在系统上运行 passmark 的多任务“测试”来排除 CPU 故障,该测试同时写入内存、运行素数并运行干磨石测试。在此之前,在所有的摆弄过程中,我故意交换了 CPU 的位置,以防 FSB 错误再次出现。它很快就使计算机 BSOD,并且不会简单地重新启动。重新启动后(经过很长时间才重新启动),它给了我一个新的 CPU 错误消息,表示前端总线错误,以及与过去出现 FSB 错误的 CPU 相同的 FSB 的额外子错误(不同的插槽)。此外,在 BIOS 中四处查看时,计算机会冻结,我无法让它启动到 Windows。所以我移除了疑似坏的 CPU,重新启动,这有效了,然后再次运行相同的测试,但时间更长。没有崩溃,没有错误(到目前为止),到目前为止一切似乎都很稳定。

有时用旧东西会赢,有时则会输。我认为这正式成为浪费时间的失败时刻之一。希望问题就到此为止。

相关内容