具有多个 RAID 控制器的 Windows Server 崩溃

具有多个 RAID 控制器的 Windows Server 崩溃

我在 Proliant DL580 G7 上有 4 个控制器:P410i,LSI9261,P812,P410.添加最后两个或一个操作系统 (Windows Server) 后开始崩溃。消除最后两个有帮助(在 RBSU 中禁用它们)。但我需要它们:我有 6 个机箱(每个机箱有 4 个硬盘)和机箱 D2700(20 个硬盘)。P812 通过外部端口仅看到 D2700 - 因此我无法将机箱连接到 P812 并使用其他控制器。每个机箱通过内部控制器端口处理 2X4 个硬盘。所有控制器共享相同的 IRQ - 10,尝试更改一个控制器的 IRQ 会自动将其他控制器更改为新的 IRQ(在 RBSU 中)。P812 和 P410 有 ROM v 6.62,P410i 有 v 6.40。如何修复?即使大多数磁盘与控制器断开连接,服务器也会崩溃 - 4 个控制器的存在足以导致崩溃。(我应用了最新 SPP 推荐的 G7 更新)

答案1

我曾使用过lsi控制器,

首先:

任何品牌的控制器通常都会尝试相互连接并查看彼此的各种配置。当它们的 rom 软件版本发生变化时,它们大多无法恢复阵列或卷。

第二:

由于类似年份的卡使用相同的 LSI 芯片,因此可以将其他品牌和不同版本的 BIOS 强制安装到不同的卡上。我猜这叫做交叉刷新。从一个品牌到另一个品牌,从 IR 模式到 IT 模式(SATA 转发仅禁用卡上的 RAM 和 RAID)。

我会做的很简单。如果你无法从事件查看器中找出崩溃的原因,请执行以下操作,如果一个要点无法解决问题,请切换到下一个

  • 检查 PSU 是否足够

  • 切换并检查 pci-e 端口(其中可能有一些金属碎片或纸张)

  • 目视检查卡片是否有烧伤痕迹或破损的 smd

  • 匹配 rom 软件版本并找出有问题的版本

  • 交叉闪存有问题,以匹配所有品牌并放置相同的 rom 软件版本。

  • 交叉闪存全部进入 IT 模式,使用 mdadm 软件突袭执行您的突袭操作。

通常在这种情况下,我们会购买一些新卡。但 sata - 软件 raid 方法非常可靠。我在每个设置中都使用它。您只需要正确使用一些 bash mdadm 命令。与 LSI 手册相比,它的几个命令非常简单,数千个 raid 控制器命令、巡逻读取、一致性检查规划等。

我最喜欢的设置是软件 raid 10 mdadm,带有来自多个 ssd 的 bcache。它与 iscsi 和 samba 配合得很好。您只需要正确调整 raid 块和 fs 群集大小。

小心操作以免丢失数据。这是我使用的方法,但我不对您的设备损坏或数据丢失或任何其他类型的损坏负责。这些交叉闪烁的东西和突袭设置都是有风险的(始终如此)。

答案2

上面的答案帮助我识别了问题 - 这是很好的算法。有时我们会怀疑一些看起来更明显的事情 - 在我的情况下,使用来自不同供应商的多个 RAID 控制器似乎很可疑。我检查了接受的答案中的所有内容 - 但服务器崩溃了。一开始,我在事件查看器中注意到警告 - WHEA-Logger, "A corrected hardware error has occurred."。根据这个文章这只是警告。但最终我将 RBSU 从 C3 状态切换到“性能”,现在服务器很稳定。我希望这能帮助 HP DL580 G7 的用户。我还添加了更强大的 PSU。

相关内容