有人知道关于计算机 RAM 故障频率的统计数据或研究吗?
更新:我的电脑没问题!我没有遇到 RAM 问题,我对统计数据感兴趣。我收到过一些软件错误报告,其中一个原因可能是用户计算机上的 RAM 出现故障,我想知道这种可能性有多大。
谢谢!
卡尔
答案1
在服务器等级为 36 的机器中,我看到可纠正每 3 个月由 ECC 电路检测到一次故障。
如果你怀疑内存故障,你应该运行memtest86
,现在几乎每个流行的 Linux 发行版都附带它。
答案2
来自 Robin Harris 的DRAM 错误率:DIMM 街上的噩梦:
一项为期两年半的研究对数万台 Google 服务器上的 DRAM 进行了研究,发现 DIMM 的错误率比想象的高出数百到数千倍——平均每个 DIMM 每年有 3,751 个可纠正错误。
哈里斯引用了对 Google 服务器群进行了为期 2.5 年的研究。请注意,服务器通常使用 EEC RAM,它可以执行一些错误校正。消费级计算机通常没有此功能。
Lambda 二极管的 Berke Durak计算:
首先,假设您的系统没有纠错功能也没有奇偶校验。在时间 T 内出现位错误的概率为 1-(1-p)^m 。
对于 T=1 小时,p = 1.3e-12 且 m = 4*2^30*8,得出 0.044 或 4.4%。这是相当高的概率。事实上,在一天内,概率为 66%,在 72 小时内,概率为 96%。
因此,在地球海平面 4 GB 的内存中,72 小时内出现至少一个比特错误的概率超过 95%。
下次当我们无法确定坠机原因时,同事说“宇宙射线”时,我不会笑……
答案3
你可以使用以下方式启动计算机memtest86+然后连夜检查。这就是我发现问题的方法。
是的,我见过内存条坏了,它们只会因一种特定的内存写入模式而失败。计算机的 BIOS 没有检测到问题,但 memtest86 在夜间运行中发现了它。
过去十年来,我使用过大约五十台计算机,其中有两根内存条出现故障。这种情况确实会发生,但并不常见。
答案4
在过去十年左右的时间里,我看到一些内存模块在运行的服务器上彻底失效,在对新交付的硬件进行 Memtest86 老化测试时,失效次数略多。这些都是服务器系统,几乎所有系统都配有某种 ECC 内存,因此我预计在配备非纠错 RAM 的客户端系统上出现问题的频率会更高。不过,我没有大量的样本集可供参考,我们自己的服务器只有几十台,在调试客户系统方面,我会说我已经在大约一百台服务器上工作过,在这种水平上,我实际上会关注 RAM。
在客户端方面,我在企业级方面的经验略多一些 - 我曾担任一个管理 50,000 台终端用户 PC 的团队的高级工程师,工作了几年,我们从未将 RAM 硬故障或软故障视为重大问题,当然它不会影响任何可测量百分比的系统。这并不是说它没有发生过,只是如果这个问题影响了 1% 以上的商务级台式机和笔记本电脑,我会感到非常惊讶。一些特定型号会显示出与制造质量控制相关的非常高的故障率,第一批 IBM Thinkpad T30 的第二个 DIMM 插槽出现问题,导致我们不得不在某个时候维修\更换几千台机器。
这微软 Larry Osterman 的博客文章2005 年的一篇文章或许可以解释其中的一些问题 - 他对来自 Windows 错误报告的大量数据集中报告的一些奇怪错误的分析表明,许多奇怪的问题都是由超频引起的。如果您的大量最终用户可能正在使用超频的消费级套件,那么这可能与您的错误有关。