考虑到许多服务器级系统都配备了ECC 内存是否有必要或有用老化在部署内存 DIMM 之前?
我遇到过这样的环境全部服务器 RAM 经过了漫长的老化/压力测试过程。这有时会延迟系统部署并影响硬件交付周期。
服务器硬件主要超微因此 RAM 来自各种供应商,而不是像戴尔Poweredge或者惠普 ProLiant。
这是一个有用的练习吗?根据我过去的经验,我只是使用开箱即用的供应商 RAM。邮政内存测试能发现 DOA 内存吗?早在 DIMM 实际发生故障之前,我就已经对 ECC 错误做出了响应,因为 ECC 阈值通常是保修安排的触发因素。
- 你是否你的内存?
- 如果是,您使用什么方法进行测试?
- 在部署之前是否发现任何问题?
- 与不执行该步骤相比,老化过程是否会带来任何额外的平台稳定性?
- 当你做什么时添加将 RAM 添加到现有的正在运行的服务器吗?
答案1
我发现了一个文档金士顿详细介绍了他们如何处理服务器内存,我相信这个过程对于大多数知名制造商来说通常是相同的。内存芯片以及所有半导体设备都遵循一种特定的可靠性/故障模式,即所谓的“浴缸曲线”:
横轴表示时间,从工厂发货开始,持续三个不同的时间段:
早期故障:大多数故障发生在早期使用期间。但是,随着时间的推移,故障数量会迅速减少。早期故障期(以黄色显示)约为 3 个月。
使用寿命:在此期间,故障极为罕见。使用寿命期以蓝色显示,估计为 20 年以上。
寿命终止故障:最终,半导体产品会磨损并发生故障。寿命终止期显示为绿色
现在,因为金士顿注意到前三个月会出现高故障率(在这三个月之后,该设备被认为是良好的,直到大约 15 - 20 年后 EOL)。他们设计了一个测试,使用一个名为 KT2400 的设备,对服务器内存模块在 100 摄氏度的高压下持续运行 24 小时,每个 DRAM 芯片的所有单元都会受到持续锻炼;这种高水平的压力测试可以使模块老化至少三个月(正如在大多数模块出现故障的关键时期之前所指出的那样)。
结果是:
2004 年 3 月,金士顿开始了为期六个月的试验,在 KT2400 中测试了其 100% 的服务器内存。密切监控结果以测量故障的变化。2004 年 9 月,在汇总和分析了所有测试数据后,结果显示故障减少了 90%。这些结果超出了预期,对于已经处于同类产品领先地位的产品线来说,这是一个重大的改进。
那么,为什么刻录内存对服务器内存没用呢?很简单,因为制造商已经完成了!
答案2
不。
硬件老化的目的是使其承受压力达到催化组件故障的程度。
对机械硬盘执行此操作会取得一些效果,但对 RAM 则不会有太大作用。组件的性质决定了环境因素和使用年限是导致故障的原因,而对 RAM 的读写(即使在其最大带宽下运行几个小时或几天)则不会。
假设您的 RAM 质量足够高,以至于第一次真正开始使用时焊料不会熔化,那么老化过程将无法帮助您发现缺陷。
答案3
我们购买刀片服务器,通常一次购买相当大一批,因此,我们在网络端口准备就绪/安全之前几天就将它们装进去并安装好。因此,我们利用这段时间使用 memtest 大约 24 小时,如果持续一个周末,时间会更长 - 完成后,我们会喷洒基本的 ESXi,并且 IP 已准备好在网络启动后应用其主机配置文件。所以是的,我们测试了它,更多的是出于机会而不是必要,但它之前已经捕获了一些 DOA DIMM,而且不是我亲自做的,所以我不费吹灰之力。我支持它。
答案4
我不会,但我见过有人这么做。但我从未见过他们从中得到任何好处,我想这可能是一种后遗症或迷信。
就我个人而言,我和你一样,认为 ECC 错误率对我来说更有用 - 假设 RAM 不是 DOA,但无论如何你都会知道这一点。