如何排除内存错误的原因

如何排除内存错误的原因

希望有人能告诉我如何解决这个问题,除了更换整台机器。

背景/历史

我有一台华硕 P8Z68-M Pro MB / G620 CPU / 16GB DDR3 1333MHz CL 9-9-9-24 DRAM。该系统大约有 4 年历史,大约 2 年前出现内存错误。我购买了新的 RAM,并将坏的一组 RMA 保留以备不时之需。

上周我注意到 FreeNAS 中出现了一些奇怪的错误(这种错误已经发生了一段时间了),因此我关闭机器并开始运行 Memtest86+ v4.2,并在地址 0019bd12878 处的其中一个 DIMM 中发现了一个容易重现的错误。

第一次内存在第 1 次测试中出现故障,测试 2 错误位为 00010000 – 预期位为 0,但读取的是 1。

第二次错误发生在第 1 次通过、第 1 次测试中 - 错误位为 00020000,同样预期为 0,读取一次。

问题很容易重现 - 将坏的 DIMM 放入不同的插槽进行两次不同的测试 - 两次都失败了。

问题

我用第一个 RMA 中的备用 RAM 替换了损坏的 RAM。全新的 Patriot VIPER DDR3 1600MHz CL9-9-9-24,我在 BIOS 中将其设置为以 1333MHz 运行。(G620 不会采用更高的倍频。)在 BIOS 中执行了 XMP,然后将时钟速度设置为 1333。

我现在遇到了一个奇怪的替换情况。

这运行了 24 个多小时,然后我开始在 0004d2fxxxx 处收到一些错误。(地址范围 - 程序仅在屏幕上显示几个,并且我没有连接打印机,也没有任何方法可以捕获更多详细信息。)

我没有关闭机器,而是更改了 Memtest86+ 设置,对报告错误的区域进行抽样测试,很快就得到了大约 4500 个错误。测试 8“随机模式”报告的所有错误

当我尝试通过拔出两个 DIMM 中的一个来重现和定位问题时,错误停止了。因此,关闭电源和/或重新插入另一个 DIMM 可以解决问题。

我恢复了原始配置,到目前为止,它已经无错误运行了 37 个小时。因此,它不太可能是一个简单的热问题。

问题

  1. 关于如何定位这个问题,有什么建议吗?
  2. 我还应该运行其他可能有帮助的测试程序吗?
  3. 这更可能是内存问题、主板问题(甚至是 CPU 芯片或电源问题)吗?

如有任何建议或意见,我们将不胜感激。

谢谢。

答案1

不能确定我是否有解决方案。找到并应用了据称可以提高稳定性和内存可比性的 BIOS 更新。

到目前为止,应用补丁后系统已成功运行近 48 小时。目前我不知道我是否已经解决了问题,或者只是还没有找到导致系统失败的原因。

相关内容