ECC内存的重要性

ECC内存的重要性

在非关键服务器上配备 ECC 内存模块是否重要?

我考虑给自己买一个玩具专用服务器,用于处理大量随机、非关键的东西。偶尔重启没什么大不了的。我正在考虑一家供应商,但价格便宜得离谱。他们的硬件听起来像是一个笑话,对于任何严肃的服务器机箱来说都是如此:台式机处理器、非 ECC RAM、无名机箱、无热插拔 SATA 硬盘等(嗯,我想价格是合理的)。

我认为任何“严肃的”服务器上都理所当然地配备了 ECC 内存,因此我想知道对于“玩具”设备来说,这是不是一件大事。

答案1

CERN IT 工作人员发布的数据(数据的完整性) 表明来自 RAM 的错误数量相当低。您仍然需要权衡数据和硬件成本。

您可以在以下网址阅读更多相关信息存储Mojo

答案2

ECC RAM 基本上有助于防止在读取和写入 RAM 时发生的错误。实际上发生错误的可能性很小,但并非为零。我想说的是,如果您不执行关键任务,那么没有 ECC RAM 也没关系 - 就像我说的,遇到 ECC 可以防止的错误的几率非常非常小。

答案3

什么是非关键服务器?即可能出现故障的服务器?

ECC RAM 是基本的当记忆可靠性至关重要时。

随着内存大小的增长,有两件事会发生:

  • 软件对内存的依赖,尤其是服务器软件(例如缓存)
  • 内存错误的概率(p = num_bits * p_bit_failure)

英特尔关于 ECC 的演示报告了以下事实:

  • 一台具有 4GB 内存的服务器全天候运行,每年的平均内存错误率为 150 次
  • 每个内存模块每年约有 4000 个可纠正错误
  • 超频和系统老化大大增加了故障率
  • 反复故障很常见,而且发生得很快(97%发生在第一次故障后的 10 天内)=> 雪崩效应
  • 对于使用寿命为 3 至 5 年的 ECC 服务器,系统故障不可纠正内存错误的概率小于 0.001%

最近还有WISC 的研究表明 ECC 对于这些 ZFS 系统至关重要:

ZFS 对内存损坏没有任何预防措施:坏数据块会返回给用户或写入磁盘,文件系统操作会失败,很多时候整个系统都会崩溃。

值得注意的是,其他文件系统对这种形式的数据损坏与 ZFS 一样敏感。

ECC 可以在可能的情况下帮助您避免遇到这些问题,并且在灾难性问题发生之前向您发出警告,防止为时已晚。

答案4

谷歌的研究从 2009 年开始,研究人员发现每兆位十亿设备小时的错误率在 25000 到 70000 之间。这意味着对于 8GiB(已使用)RAM,每小时大约有 1.7 到 4.8 个错误。

位翻转是存在的,当数据完整性变得重要时,它就不应该被忽视。

就您而言(随机的、非关键的东西),它可能会有点过度。

相关内容