所以这是 2-3 个月内第二次,我的专用机箱在某个不知名的主机上出现了某种形式的内存故障。这是正常现象吗,还是我的主机只是给我提供了便宜的内存条?我该如何查明?
内存问题 1:
EDAC MC0: UE row 0, channel-a= 2 channel-b= 3 labels "-": (Branch=1 DRAM-Bank=7 RDWR=Write RAS=32679 CAS=0 FATAL Err=0x4 (>Tmid Thermal event with intelligent throttling disabled))
内存问题2:
EDAC MC0: UE row 0, channel-a= 0 channel-b= 1 labels "-": (Branch=0 DRAM-Bank=0 RDWR=Read RAS=0 CAS=0, UE Err=0x2 (Aliased Uncorrectable Non-Mirrored Demand Data ECC))
眼镜:
- 配备 Intel 5400 系列 Harpertown 处理器的双 Intel 四核服务器
- 高达 24GB DDR2-FBDIMM 667Mhz 内存
- CentOS 5.6(最终版本)
答案1
这个问题只有一个答案。换一家供应商。你在浪费时间“搞清楚”事情。你的时间太宝贵了。
如果供应商搞砸了一次并给您提供了劣质硬件,您会投诉,而且他们处理得当(快速高效、简单道歉并保证这只是不寻常的、通过抵消账单来弥补等等),那么这就是您继续与他们合作的理由。
如果同样的故障发生两次,那么你就放弃吧。修复、找出原因或确定其他解决方法不值得你花费时间和金钱。只需找到一家信誉良好且服务相当的新供应商,并让这些人知道,由于硬件故障反复发生,你希望解除合同。
如果您拥有机器的 root 访问权限,则有许多系统信息包通常可以确定内存类型和品牌,但没有一个特别可靠。除非您运行的是高端硬件(HP、IBM 等),否则 vanilla 机器上的基本内存架构实际上不会暴露大量有关硬件的元数据。
在旁边:此外,正如反对票和评论所显示的那样,这个问题更适合在网站托管讨论论坛上提出。这是一个系统管理员处理技术问题的网站。如果您缺乏对机器的物理访问权限或根访问权限,我们不太可能为您提供太多帮助。对于较低级别的技术姐妹网站的问题https://superuser.com/或者https://unix.stackexchange.com/可能会更有帮助。
答案2
答案3
这实际上是内存模块不匹配或故障的常见问题。EDAC
是 Linux 内核中检测和处理此类内存错误的子系统,有更多文档可用在内核 doc/edac.txt 文件中。