免责声明:我正在运行一个老化的集群,我对此的信息非常有限 - 我是负责日常维护的第十名研究生,我不是 HPC、硬件或软件方面的专家。我使用此集群运行我开发的代码,并仅在必要时排除故障。文档主要限于特定于集群的专有集群管理系统 (Scyld),并且我们不再享受保修,因此致电技术支持是最后的手段,因为我们需要付费(学术界强烈建议不要这样做)。
问题:此集群的某个节点无法启动,并在启动期间出现以下错误:
Node1: Dram ECC requested but not enabled
Node1: No DQS Receiver Enable pass window found
Node1: DQS Rcvr En pass window too small (far right of dynamic range)
DQS-DQ passing window too small
Press F1 to Resume
按下 F1 后,节点重新启动并返回此状态。这让我认为存在内存(读取:硬件)错误。我打开了 BIOS,所有内存都显示出来 - 但事件日志中有 5 个项目(发布在底部)。我有一种感觉,这些代码可以将我引导到错误处 - 特别是如果我有一根坏掉的 DIMM 或更糟糕的情况。
尝试修复:集群中的每个节点都包含 2 个四核 AMD Opteron 处理器 2350,每个处理器都有自己的 8 插槽内存组。目前,每个内存组在插槽 1-4 中安装了 4 根 DIMM。我尝试重新安装 DIMM、反转 DIMM 的顺序、将 DIMM 放入插槽 5-8,并切换 DIMM 所在的内存组,看看这是否能让我隔离任何问题 - 但无济于事。
我找到了一些有关 SEL 错误代码的信息(此处),这似乎有些希望 - 但代码并不完全相同,因此我不能完全相信它们。
所需解决方案:弄清楚这些 SEL 代码的含义,找出问题所在,(并希望)修复它,然后启动节点。即使将问题缩小到坏的 DIMM 棒、坏的 CPU 或其他任何东西,也会有所帮助。
谢谢!
其他可能有用也可能没用的信息:该系统是一个有 32 个节点的 Penguin 集群,每个节点都相同(上面有详细描述)。它运行的是 CentOS 4.6。这是一个用于高度并行计算模拟的 beowulf 集群,使用 MPI 将进程收集/分散到节点。
系统事件日志:
SEL Entry Number [1]
SEL Record ID: 0001
SEL Record Type: 02 (System Event)
Event Timestamp: Sep 21, 2016 14:01:52
Generator ID: 0001
Event Message Format Ver: 04 (IPMI ver 1.5)
Event Sensor Type: C1
Event Sensor Number: 81
Event Dir Type: 70
Event Data: A0 01 07
SEL Entry Number [2]
SEL Record ID: 0002
SEL Record Type: 02 (System Event)
Event Timestamp: Sep 21, 2016 14:02:03
Generator ID: 0001
Event Message Format Ver: 04 (IPMI ver 1.5)
Event Sensor Type: 0F (POST Error)
Event Sensor Number: 82
Event Dir Type: 70
Event Data: A0 08 41
SEL Entry Number [3]
SEL Record ID: 0003
SEL Record Type: 02 (System Event)
Event Timestamp: Sep 21, 2016 14:02:03
Generator ID: 0001
Event Message Format Ver: 04 (IPMI ver 1.5)
Event Sensor Type: 0F (POST Error)
Event Sensor Number: 82
Event Dir Type: 70
Event Data: A0 0B 41
SEL Entry Number [4]
SEL Record ID: 0004
SEL Record Type: 02 (System Event)
Event Timestamp: Sep 21, 2016 14:02:04
Generator ID: 0001
Event Message Format Ver: 04 (IPMI ver 1.5)
Event Sensor Type: 0F (POST Error)
Event Sensor Number: 82
Event Dir Type: 70
Event Data: A0 0D 41
SEL Entry Number [5]
SEL Record ID: 0005
SEL Record Type: 02 (System Event)
Event Timestamp: Sep 21, 2016 14:02:04
Generator ID: 0001
Event Message Format Ver: 04 (IPMI ver 1.5)
Event Sensor Type: 0F (POST Error)
Event Sensor Number: 82
Event Dir Type: 70
Event Data: A0 0F 41
memory event-log cluster