我有 3 台 IBM X3650,采用 Red Hat Enterprise 4.8 进行负载平衡(循环)。其中一台出现间歇性内核崩溃,并在 2 个特定内存组(3 和 5)上报告错误,这些内存组是空的。我只有内存模块在内存组 1、4、7 和 10 上。我尝试更换所有内存模块,但无济于事。
答案1
如果它们是相同的机器,并且您可以承受停机时间,请考虑关闭“坏”服务器和正常运行的服务器,交换磁盘,重新启动它们,看看问题是磁盘问题还是硬件问题。如果是前者,则存在磁盘/操作系统问题,如果是后者,则存在硬件问题。
答案2
内核崩溃通常表示硬件问题。
存储体 3 和存储体 5 是空的:您是否尝试过清洁(使用压缩空气,(从高处以免损坏卡))内存插槽区域?
如果这 3 台机器具有相同的内核版本、配置和软件,那么听起来很可能是主板问题:3 台主板上的固件版本是否相同?
答案3
本周我们在 x3650 (M/T:7979) 上遇到了类似的问题
我们运行的是 BIOS v. 1.03(随系统一起提供)。支持人员建议升级 BIOS - 我们有两个系统采用类似的负载平衡设置,但配置发生了变化。一台服务器运行的是 BIOS v. 1.15,另一台运行的是旧版 BIOS。旧版 BIOS 系统存在问题。
这BIOS 更新日志列举了几个已修复的与内存相关的问题。我建议使用 updateXpress 或 Bootable Media Creator 升级 BIOS。如果这不起作用,请拨打 1800IBMSERV。
您可以通过安装 IBM DSA(可从以下网址获取)来检查 BIOS 版本修复中心) 实用程序并运行(以 root 身份)
./opt/IBM/DSA/bin/biosversion
答案4
是的,不存在的 DIMM 的错误确实看起来像是主板故障。但首先尝试更新 BIOS 可能更容易。据我所知,x3650 BIOS 允许降低内存速度,这也值得一试。