我是一名 IT 管理员,并且多年来一直从事台式计算机和服务器维修工作。
我们有一台 DL580 G7,其保修期已于 2015 年 12 月 31 日到期。最初配备 Xeon E7530 和标准内存盒,我们最近将其升级为 E7-4870 和 E7 内存盒。从那时起,我们很难确保它正常工作。为了找到问题所在,我进行了连续测试:
1)PROC1=A,PROC2=B,PROC3=X,PROC4=X,POST=TRUE
2)PROC1=C,PROC2=D,PROC3=X,PROC4=X,POST=TRUE
3)PROC1=A,PROC2=X,PROC3=B,PROC4=X,POST=FALSE
4)PROC1=A,PROC2=X,PROC3=X,PROC4=B,POST=TRUE
5)PROC1=A,PROC2=C,PROC3=X,PROC4=B,POST=TRUE
6)PROC1=A,PROC2=C,PROC3=D,PROC4=B,POST=FALSE
7)PROC1=E,PROC2=F,PROC3=X,PROC4=X,POST=TRUE
8)PROC1=E,PROC2=X,PROC3=F,PROC4=X,POST=TRUE
9)PROC1=E,PROC2=G,PROC3=F,PROC4=H,POST=TRUE
A、B、C、D 为 E7-4870 (SLC3T) 130W TDP
E、F、G、H 为 E7530 (SLBRJ) 105W TDP
X 为空插槽
TRUE = 服务器开机自检并运行操作系统 (WS2012 R2 DataCenter)
FALSE = 服务器在开机自检前挂起(在 ilo3 上显示最后的开机自检代码 4048,然后开机自检代码消失且无视频,连接到 VGA 端口的结果相同)
服务器部件:
DL580 G7(584087-421)
主板(512843-001/591196-001)
CPU 板(583367-001/591197-001)
I/O 板(512844-001/591199-001)
E7 内存条(650761-001/647058-001)
标准内存条(617524-001/591198-001)
Micron 4GB 内存条 dimm(500203-061)
4xPSU 1200W(438203-001/498152-001)
系统 ROM P65 2013 年 10 月 1 日(重置为默认值)
iLO 固件版本 1.85
根据惠普针对此款 ProLiant 服务器的 QuickSpecs,E7-4800 系列仅支持 DL580 G7 CTO (643086-B2x) 和预配置型号 (6430xx-xx1/6967xx-xx1)。据我所知,入门级的主要区别在于 E7 卡盒。主板、CPU 板和 I/O 板是相同的部件号。
总而言之,当插槽 PROC3 上安装 E7-4870 时,服务器似乎无法开机(测试了所有四个 4870,结果相同)。我怀疑这个插槽存在电气/电源问题,因为 TDP 高于 E7530。
我打算先更换 CPU 板,欢迎提供任何建议。
你们中有人遇到过这样的问题吗?
答案1
我们刚刚将三台型号为 584084-001 的 DL580 G7 升级到 Xeon E7-4870 处理器。我们发现,在我们的环境中,重要的是主系统板的版本(而不是 CPU 板/托盘或 SPI 转接卡)。阅读完最后的回复后,我检查了 iLO 以验证我们所有的 PAL 版本。我们确实有一台服务器在 PAL 版本为 0x10 的 CPU 板上运行 4 个 E7-4870 处理器和 1TB 内存。
我们发现,只要系统 MainIO 板(hp 部件 512843-001)是修订版 0B 或更高版本,它就可以正常工作。三台服务器中有两台的 MainIO 板是修订版 0A,它们无法使用新处理器。在这些系统上,我们只更换了主板,结果服务器就可以正常工作。
安装了较新 MainIO 板版本的服务器一切正常,因此我们最初尝试将其 CPU/内存托盘移至无法正常工作的服务器上。当它们仍然无法正常工作时,我们断定问题出在 CPU/内存托盘之外。MainIO 板上的版本是无法正常工作的服务器和正常工作的服务器之间的唯一区别。
我们从我们通常的供应商那里订购了主板,但无法指定版本。我们只能订购,然后在安装前验证版本。
编辑:在我们的工作 CPLD / PAL 版本上添加诊断信息:
Server 1:
- CPLD PAL0: ProLiant DL580 G7 SPI Board PAL version 0x0F
- CPLD PAL1: ProLiant DL580 G7 MainIO Board PAL version 0x0F
- CPLD PAL2: ProLiant DL580 G7 CPU Board PAL version 0x0E
Server 2:
- CPLD PAL0: ProLiant DL580 G7 SPI Board PAL version 0x0F
- CPLD PAL1: ProLiant DL580 G7 MainIO Board PAL version 0x0F
- CPLD PAL2: ProLiant DL580 G7 CPU Board PAL version 0x0F
Server 3:
- CPLD PAL0: ProLiant DL580 G7 SPI Board PAL version 0x10
- CPLD PAL1: ProLiant DL580 G7 MainIO Board PAL version 0x11 bootleg
0x10
- CPLD PAL2: ProLiant DL580 G7 CPU Board PAL version 0x10
答案2
这是一种“致电 HP 支持”的情况。
就这些。
无论您的保修状态如何,您都在尝试使某些需要专业知识的东西正常工作。我假设您已经升级了所有固件,但似乎您也已经意识到但忽略了一个严重的兼容性问题。
答案3
就像 ewwhite 通知的那样,我只是忽略了一个严重的兼容性问题。
我最终得到了 643086-B21 CTO 型号,在 PROC1 和 PROC2 上装有两个 E7-8837。
已完成顺序测试(I、J 为 E7-8837、SLC3N、130W TDP):
1) PROC1=I、PROC2=J、PROC3=X、PROC4=X、POST=TRUE(E7 dimm 墨盒)
2) PROC1=A、PROC2=B、PROC3=C、PROC4=D、POST=TRUE(E7 dimm 墨盒)
3) PROC1=E、PROC2=F、PROC3=G、PROC4=H、POST=TRUE(标准 dimm 墨盒)
系统 ROM 为 P65 10/01/2013
如您所见,一切运行正常 (4xE7-4870 和 4xE7530 cpu)。
CTO 服务器部件:
主板 (512843-001/591196-001)
CPU 板 (583367-001/591197-001)
I/O 板 (512844-001/591199-001)
与 584057-421 型号相比,硬件、零件号板完全相同。
那么区别在哪里?
在这种服务器中,每个主板(SPI、MainIO、CPU)都有自己的芯片 ROM(Lattice EEPROM/Flash),称为复杂可编程逻辑器件 (CPLD) 和可编程阵列逻辑 (PAL)。这可以解释为什么某些 Hp ProLiant 服务器需要很长时间才能启动。
您可以在 iLO3 菜单的“信息/诊断/iLO 自检结果”下查看数字版本:
对于 DL580 G7 CTO 部件号 643086-B21:
CPLD - PAL0 = ProLiant DL580 G7 SPI 主板 PAL 版本 0x10(p/n 591199-001,Lattice 芯片标签 = SPI PAL、512844v4、6470)
CPLD - PAL1 = ProLiant DL580 G7 MainIO 主板 PAL 版本 0x11 bootleg 0x10(p/n 591196-001,Lattice 芯片标签 = Sys PAL、20110215、5290)
CPLD - PAL2 = ProLiant DL580 G7 CPU 主板 PAL 版本 0x10(p/n 591197-001,Lattice 芯片标签 = CPLD、0x1010、EB96)
对于 DL580 G7 部件号 584087-421:
CPLD - PAL0 = ProLiant DL580 G7 SPI 板 PAL 版本 0x0F(p/n 591199-001,Lattice 芯片标签 = SPI PAL、R18、3484)
CPLD - PAL1 = ProLiant DL580 G7 MainIO 板 PAL 版本 0x0E(p/n 591196-001,Lattice 芯片标签 = Sys PAL、R18、6D87)
CPLD - PAL2 = ProLiant DL580 G7 CPU 板 PAL 版本 0x0E(p/n 591197-001,Lattice 芯片标签 = CPLD、R18、B5B6)
对于两台 DL580 G7(在两台服务器上启动,不需要更新 CPLD):
CPLD - PAL3 = ProLiant DL580 G7 Combo PCIe 和 PCI-X 主板 PAL 版本 0x06(p/n 591204-001,Lattice 芯片标签 = CPLD、R18、80B6)
CPLD - PAL3 = ProLiant DL580 G7 标准 PCIe 主板 PAL 版本 0x06(p/n 591205-001,Lattice 芯片标签 = CPLD、R18、80B6)
注意:带有 CPU 板 PAL v0x10 的 4xE7-4870 无法在 DL580 G7 p/n 584087-421 上启动。因此,更换/更新 CPU 板是不够的,您还必须更换/更新 MainIO/SPI 板(未单独测试)。
正如之前的测试所显示的那样,DL580 G7 CTO 支持 E7500 处理器,因此在标准服务器上更新 CPLD 固件不会引起兼容性问题。因此,如果您计划使用 E7 处理器升级标准 DL580 G7 服务器,则必须更新 CPLD 芯片。不幸的是,我没有在任何地方找到针对 DL580 G7 服务器的 CPLD 固件更新。看来 Hp 不提供下载,而且我怀疑他们永远不会提供。但是,您可以在许多其他 ProLiant 服务器上找到它:
例如,hp 文档 p/n AM426-9011 B,描述了 DL980 G7 服务器上的 E7 系列处理器升级(第 6 页,使用 FPGA 智能组件刷新 FPGA)。您可以在 hp ftp 服务器 (/pub/softlib2/software1/pubsw-linux/p2139015018/v70029/dl980g7-offline-cpld-fpga-fmp-flash-1.0-8.zip) 上获取完整的 iso CPLD 更新固件。
此外,对于那些可能感兴趣的人,我还找到了 DL585 G7 的 CPLD 更新 (/pub/softlib2/software1/sc-linux-fw/p2039955643/v85801/cp019851.scexe)
如前所述,E7-4800 系列仅支持 DL580 G7 CTO (643086-B2x) 和预配置型号 (6430xx-xx1/6967xx-xx1)。但如果您收到故障主板,尤其是二手市场主板,您必须用正确的零件号更换它,并注意获取正确兼容的 CPLD 芯片版本!
此外,对于仍想在不更新 CPLD 的情况下将标准 DL580 G7 升级为 E7 Westmere 处理器的人,请记住:
- 仅在 PROC1 和 PROC2 插槽中(以获得对称配置),因此最大内存量将分为两部分,
- 2xE7-4870 配置比 4xE7530 配置更快且耗电量更少(2xE7-4870,20 核 = 208W,4xE7530,24 核 = 337W,在 WS2012 R2 空闲模式下),
- 无法添加扩展板,因为您必须填充 PROC3。
问题已解决。
编辑:回应@Clint,详细的MainIO 板版本:
答案4
感谢你们所有人提供的出色信息。你们真的帮我解决了这个问题。对于那些稍后才来的人,以下是底线:
您有主 IO 板 591196-001 rev 0A。这是带有 PCI 插槽的板。靠近 CPU 板连接器的标签上写着 rev 0A。您需要 rev 0B。
如果插槽 3 中装有 E7 处理器并且安装了 rev 0A 主板,则服务器将无法开机。只要您移除处理器 3 或安装 rev 0B 主板,一切就会正常。