机架式服务器上两个内存模块同时发生故障的最可能原因是什么?

机架式服务器上两个内存模块同时发生故障的最可能原因是什么?

昨天下午我们花了一些时间在机架式服务器上,现在我们正试图确定 IBM 服务器上两个 DDR2 模块同时出现故障的最可能原因。

服务器可以同时使用两个模块启动,也可以一次使用一个模块启动,但在 MEMTEST86+ 的 12% 标记处失败。

一些替换的内存运行正常,只是两块内存同时出现故障并且在内存的某个区域出现完全相同的问题,这似乎很奇怪。

有谁知道这是什么原因造成的?

如果这是某些供应商已知的问题,那么这是一个相对较新的 IBM 机架式服务器。

答案1

内存可能来自同一个芯片供应商和同一个模块供应商。制造批次甚至可能是相同的。也许这批芯片和/或模块容易出现故障。或者,在系统构建/配置时两个模块都受到了物理损坏。

答案2

您是否确定模块本身已发生故障(即它们在另一台服务器中仍然保持“坏”状态?)因为我最近看到过类似的问题,这是 CPU 和/或主板内存走线的故障,影响了多个模块。

答案3

这些模块可能从一开始就失效了,而您只是在使用比一开始更多的 RAM 后才注意到。我自己就遇到过这种情况!

答案4

处理不当可能是原因。请参阅http://www.kingston.com/tools/umg/umg07.asp

“静电放电 (ESD) 是造成内存模块损坏的常见原因。ESD 是由于在处理模块时没有先正确接地,从而没有将身体或衣服上的静电消散所致。如果您有接地腕带,请戴上。如果没有,在接触电子元件(尤其是新内存模块)之前,请确保先接触未上漆的接地金属物体。最方便的是计算机内部的金属框架。此外,始终从边缘处处理模块。如果 ESD 损坏了内存,问题可能不会立即显现,并且可能难以诊断。”

相关内容