如果这个问题不适合 ServerFault,我深感抱歉,但我已经用 Google 搜索了几个小时却无果,而且 Sun 实际上已经不存在了,我与 Oracle 也没有签订支持合同,所以我无法向他们寻求帮助...
无论如何,我最近得到了一台 Sun Fire X4100(不是 M2),配备 2 个 AMD Opteron 254 和 4GB PC-3200R DDR1 ECC RAM,我打算将其用于 ESXi,但我需要先升级 RAM。
在查阅了我能在网上找到的文档后,我决定购买 8 个 2GB DIMM。现在,这些是 HP DIMM,因为我找不到 SUN 的 DIMM,它们来自 Micron,而不是目前服务器中的三星 DIMM,但我对 DIMM 兼容性进行了大量研究,没有发现任何说这些不兼容的东西,所以我继续购买。
它们今天到达,我按照文档指示做了所有事情(关闭服务器电源、更换 DIMM、清除 CMOS 等...),但它们就是不工作。我启动服务器,它显示 RAM 错误(RAM 插槽上的琥珀色灯),甚至没有 POST。
因此我检查了 ILOM 日志,得到了以下结果:
1102 IPMI Log critical Wed Nov 30 20:03:46 2016 ID = 3ce : 11/30/2016 : 20:03:46 : Memory : BIOS : Memory Device Disabled
1101 IPMI Log critical Wed Nov 30 20:03:46 2016 ID = 3cd : 11/30/2016 : 20:03:46 : Memory : BIOS : Uncorrectable ECC Node 0 DIMM 0
1100 IPMI Log critical Wed Nov 30 20:03:46 2016 ID = 3cc : 11/30/2016 : 20:03:46 : System Firmware Error : BIOS : No usable system memory
1099 IPMI Log critical Wed Nov 30 20:03:42 2016 ID = 3cb : OEM record e0 : 01000000044004000000000000
1098 IPMI Log critical Wed Nov 30 20:03:41 2016 ID = 3ca : OEM record e0 : 00000000041308084801a067f6
1097 IPMI Log critical Wed Nov 30 20:03:41 2016 ID = 3c9 : 11/30/2016 : 20:03:41 : OEM sensor : BIOS : Hyper-Transport Sync Flood Error
1096 IPMI Log critical Wed Nov 30 20:03:41 2016 ID = 3c8 : 11/30/2016 : 20:03:41 : Memory : BIOS : Memory Device Disabled
1095 IPMI Log critical Wed Nov 30 20:03:41 2016 ID = 3c7 : 11/30/2016 : 20:03:41 : Memory : BIOS : Uncorrectable ECC Node 0 DIMM 1
1094 IPMI Log critical Wed Nov 30 20:03:40 2016 ID = 3c6 : 11/30/2016 : 20:03:40 : System ACPI Power State : sys.acpi : S0/G0: working
1093 IPMI Log critical Wed Nov 30 20:03:23 2016 ID = 3c5 : 11/30/2016 : 20:03:16 : Physical Security : sys.intsw : General Chassis intrusion
1092 IPMI Log critical Wed Nov 30 20:03:23 2016 ID = 3c4 : 11/30/2016 : 20:03:16 : Voltage : mb.v_bat : Lower Non-critical going low : reading 2.61 < threshold 2.69 Volts
1091 IPMI Log critical Wed Nov 30 20:03:15 2016 ID = 3c3 : 11/30/2016 : 20:03:15 : Entity Presence : ps0.prsnt : Device Present
1090 IPMI Log critical Wed Nov 30 20:03:14 2016 ID = 3c2 : 11/30/2016 : 20:03:14 : System ACPI Power State : sys.acpi : S5/G2: soft-off
我尝试在节点 0 和插槽 0 和 1 中设置 2 个旧 DIMM,在节点 1 的插槽 0 和 1 中设置 2 个新 DIMM,这使系统启动 POST,但它只能识别节点 0 上安装的 2GB RAM,即使 ILOM 显示确实安装了 2 个 2GB DIMM。节点 0 插槽 1 和节点 1 插槽 1 的故障 RAM 指示灯亮起,这对我来说似乎很奇怪。
我尝试了所有我能想到的基本故障排除方法,清洁了连接器,交换了插槽,重置了 CMOS,但都不起作用。
根据我找到的手册,该系统确实支持 2GB DIMM,并且 BIOS 已更新为最新版本,SP 固件也是如此。所以我没有主意,我希望这里有人有或曾经有过同样的系统,能够帮助我解决这个问题……
标签上的额外信息可能会有帮助:旧 DIMM:
型号:Sun (Samsung) PC3200R-30331-C3 1GB DDR PC3200 CL3 ECC Sun P/N:371-0072-01 单列 DIMM
新的 DIMM:
型号:HP (Micron) PC3200R-30331-Z 2Gb DDR 400 CL3 ECC REG HP P/N:373030-851 双列 DIMM
先谢谢您的帮助!
答案1
Sun 设备在某些方面很挑剔。确保您的内存安装在正确的插槽中,主板需要等效对。如果您尝试混合搭配,会出现奇怪的错误。尝试在没有旧内存的情况下填充内存,看看您是否会发布。在那些服务器上,如果我没记错的话,您需要为两个处理器提供相同数量的内存。如果它们的布局不同,它们可能会报告大小略有差异,系统会将其视为错误/坏内存。