虚假 RAID 控制器故障。是我的控制器坏了还是我的磁盘坏了?

虚假 RAID 控制器故障。是我的控制器坏了还是我的磁盘坏了?

我有一台 Dell T7500,它配备了 PERC H710P,连接到 RAID5 阵列中的 4 个 3T 驱动器。还连接到控制器的还有 2 个 256G SSD 驱动器,未配置成阵列。Linux 服务器安装在其中一个 SSD 驱动器上,RAID5 是我所有用户数据的存储位置。

前几天启动时,RAID BIOS 报告错误

Drives 01 and 03 missing
Foreign config available

我加载了外部配置,驱动器重新出现。下次启动时,我得到了

Drive 01 offline

我以为是硬盘坏了,就换了个新硬盘,重建了 01 号硬盘。下次启动时,系统恢复正常,但几次重启后,我得到了

Drive 00 offline
Foreign config available

因此我读取了外部配置并强制00上线。

经过几次重启后,我得到了

Drive 03 offline
Foreign config available

读入外部配置。强制驱动器 03 在线。

现在系统可以正常启动了。我已重启过多次。

我是否应该认为我的控制器坏了?

或者换句话说,这种行为是否有可能是由控制器以外的其他因素引起的?例如,内核驱动程序是否会以某种方式破坏驱动程序配置?

答案1

是的,我相信您的控制器或 RAID 背板有问题。但我认为控制器才是罪魁祸首。您可以查找 RAID 控制器的固件版本(不要与系统 BIOS 混淆,您也应该检查系统 BIOS)并与戴尔网站上提供的版本进行比较吗?您可能会发现该版本相当旧,并且关键问题已在较新版本中得到解决。或者,您可以尝试致电戴尔支持 - 如果有支持,您一定要这样做!您可以通过在 support.dell.com 上查找服务标签轻松检查哪些服务合同有效。

需要注意两点。您正处于危险境地。升级 RAID 控制器固件有时可能会导致数据丢失 - 确保新版本已经发布一段时间,并仔细阅读发行说明。2) RAID 5 不会给您太多回旋余地。无论如何,在您让时间流逝在这个问题上或采取任何实质性的纠正措施之前,请准备好备份您的关键数据!

答案2

除了 whitepaws 的出色建议(获取备份、更新固件等)外,如果您仍在保修期内,您可以考虑联系戴尔支持。控制器日志可能会包含有关正在发生的事情的更多信息,并可能为您提供问题的潜在原因的线索。

更直接地回答您的问题...是的,除了控制器本身之外,还有其他因素可能导致问题(即坏驱动程序,如果您的驱动程序足够旧的话)。不过,这种可能性不大 - 控制器本身或其他硬件的问题更有可能出现。有时,一个坏磁盘也会导致所有其他磁盘出现问题 - 这是我们会在控制器日志中检查的内容。

答案3

如果您想提取日志,您有几个更复杂的管理选项。

如果您在启动时有 UEFI Bios,则可以在那里配置登录。手册中对此进行了描述: ftp://ftp.dell.com/manuals/all-products/esuprt_ser_stor_net/esuprt_dell_adapters/poweredge-rc-h310_User%27s%20Guide_en-us.pdf

您还可以安装 OpenManage 并通过以下方式获取信息: http://linux.dell.com/wiki/index.php/Repository/hardware

我第三次提出关于备份的建议。备份,备份,备份。在 2013 年,由于高密度、文件系统缺陷以及 SSD 的特殊性,几乎不可能从损坏的驱动器中恢复数据。假设任何故障都会导致数据完全丢失。

如今,甚至 RAID 5 也被认为是危险的。或者根本就不是 RAID。我反复遇到控制器故障导致基本 RAID 1 镜像阵列和变体(RAID 10)中的两个驱动器损坏的问题。RAID 5 和 RAID 6 也存在同样的问题。

现在,最佳做法是主要将 RAID 用于 RAID 0 条带化,并使用完全独立的系统(单独的驱动器/阵列)通过备份软件进行备份。

换句话说,通常认为将单个硬盘备份到外部 USB 硬盘比创建镜像阵列更好。

相关内容