在 3 天内,我们有三个机器因内存错误而宕机,其中两个机器在 2 小时内宕机。所有机器都出现了如下错误:
ECC single bit correction warning rate exceeded, ECC single bit correction failure rate exceeded.
这是不言自明的。我的问题是,几天内他们遇到的问题是不是随机锁的问题,还是环境因素导致的?重启时,一个盒子挂了
Configuring memory ...Done.
重启后,其他两个盒子出现了。我想科学地看待这个问题。如果有一个坏的 DIMM,压力测试应该能显示这个问题吗?还是这个问题会随机出现?
我正在运行一些基本测试,到目前为止一切看起来都很正常。压力测试不应该重现这个问题吗?
更新:我用 memtest+ 进行了测试,结果显示一切正常。
答案1
如果几台机器同时出现故障(或报告错误率显著增加),那么这要么是巧合,要么是电源故障、过热故障或辐射故障。
您需要检查电源、温度并找到错误,稍微交换一下 DIMM,然后检查错误是否随之移动。