Dell PowerEdge 2950 出现 PCIe 降级链路宽度错误:内部存储插槽

Dell PowerEdge 2950 出现 PCIe 降级链路宽度错误:内部存储插槽

我有一台戴尔 PowerEdge 2950,出现“PCIe 降级链路宽度错误:内部存储插槽”,由于它已过保修期,所以我无法就此事骚扰戴尔,我想看看这里是否有人遇到过这种情况。

我已经移除并重新安装了背板、转接卡、RAID 控制器和控制器上的 RAM。甚至移除并重新安装了所有驱动器,并在没有 RAID 卡的情况下启动了服务器,然后关闭并安装 RAID 卡。移除 RAID 卡时我没有收到错误,所以我认为错误与 RAID 卡有直接关系……但是,我仍然可以访问 RAID BIOS 并查看所有驱动器的状态,这表明一切正常。但我无法访问戴尔 BIOS。

答案1

您的 RAID 控制器卡(可能是 PERC 5/i)位于多通道 PCIe 插槽(可能是 x8),但其运行通道数少于最佳值(可能是 x4 或 x1)。它可能仍能正常工作,但如果它能正常工作,其连续读/写操作的最大吞吐量将比正常情况慢。

故障排除步骤:

  1. 在不同的 PCIe 插槽中尝试相同的 RAID 控制器。
  2. 在同一个 PCIe 插槽中尝试不同的 RAID 控制器。
  3. 尝试不同的 PCIe 转接卡。
  4. 尝试不同的主板。

附注:如果您在生产环境中使用已过保修期的硬件,则必须配备备用服务器和备用组件。

答案2

我刚刚在使用 2950 服务器时遇到了这个问题。就我而言,这个问题发生在我向机器添加新的四端口千兆以太网适配器时。我已经在同一个 pcie 转接卡上安装了双端口千兆以太网适配器(从正面看在左侧)。如果我取出双端口卡,错误就会消失。我猜问题是转接卡实际上没有提供足够的通道来支持转接卡上两个 pcie 插槽的全部带宽,可能与 perc 6/i 卡共享通道。我稍后会尝试将其中一张卡放入右侧的转接卡中,但我现在无法再次关闭机器。

答案3

不直观的是,香料厂问题表明它会受到插入的 USB 设备的影响。

我的同事告诉我,他刚刚通过移除所有 USB 设备解决了 PowerEdge 1950 上的这个错误,我相信这些 USB 设备只是标准键盘和鼠标。

对我来说这似乎是一个长远的目标,但至少尝试一下是相当轻松的。

答案4

因此您的 RAID 控制器不知为何损坏了。

如果您很幸运,并且确实使用了 RAID1,则以下操作将起作用:

  • 关闭服务器
  • 拔出所有驱动器
  • 打开电源,进入 BIOS,并将所有通道的 RAID 切换为 SCSI 或 SAS
  • 重新安装驱动器
  • 在每个通道启动期间确认“y”表示 RAID 更改为 SCSI

现在,您将能够以 JBOD 形式访问磁盘。您应该能够从磁盘 1 启动 - 之后,您可以使用 OS 手段构建软件 raid1(我最近在一台装有 PERC4i/SCSI 和 Linux 的旧 2850 上这样做了,没有丢失数据)。

相关内容