我们有一台 MSA60,配备 12x4TB 非 HP 问题的 Seagate Constellation ES.3 硬盘,连接到 P812/FBWC,我在 P812/FBWC 上使用 hpacucli 在所有这些磁盘上创建了 RAID6,并开始在它们上复制数据。
此外,我在复制过程的早期阶段取出一个驱动器并将其替换,只是为了看看 RAID6 重建会对我们的生产场景的写入(以及后来的读取)性能产生多大的影响。(情况还不算太糟,重建大约需要 5 天时间)。该驱动器的重建率为 75%。
现在我重启了安装了 Debian Squeeze 的 DL385G7,P812 连接到了该 DL385G7,重启后,P812 上不再有阵列。内部 P410i 阵列完好无损。Hpacucli 确实看到了驱动器,但将它们列为未分配。我在 Google 上搜索了一下,得到的建议是重新创建相同的阵列可以恢复它。我确实这样做了。vgscan 没有找到 LVM 卷。
我重新启动并进入 ORCA。ORCA 说没有卷和驱动器。
现在我有点吃惊——问题可能出在哪里?ORCA 看不到驱动器,但 hpacucli 却能看到?这可能是我用 hpacucli 创建并已使用的 LD 没有弹出的原因吗?
我有一根替换的 minisas 电缆和一根替换的 MSA60,可以试试。替换的 P812 需要一段时间。
我该如何调试?如果不使用外部取证公司,我有多大机会找回数据?
编辑:好的,现在 hpacucli 也看不到驱动器了。我想我会先更换 MSA60 机箱。
编辑2:好吧,忽略所有的“如果你有钱支付 HP 磁盘税,你就是专业人士”的势利,以下是发生的事情:
我没有检查 MSA 是否真的存在:
=> ctrl slot=1 enclosure all show Error: The specified device does not have any storage enclosures.
就能告诉我我需要的一切。
- 交换了电缆和 P812 上的端口后,我交换了 MSA60(冷),瞧,这就是我的阵列。
- 之前重建的磁盘在 70% 左右,现在标记为“OK”,提示我运行文件系统检查。我怀疑控制器将在初始重新扫描后继续重建。
请注意,我取出磁盘并非“只是为了好玩”。我取出它是为了判断 RAID6 是否足以满足我们的生产需求。我鼓励每个人对新配置都这样做 - 无论是在存储、软件还是网络设备中。
答案1
您的阵列可能已经消失了。我怀疑您可能遇到了固件问题。您的 P812 控制器的修订级别可能不太好。此外,MSA60 早在 2008-2009 年就停产了。
- 在配置此阵列之前您是否运行过任何更新?
- Smart Array P812 控制器运行的是哪个版本的固件?
- MSA60 的水平好吗?
- 这些是 SAS 还是 SATA 驱动器?
- 驱动器协商的链接速度是多少?1.5Gbps?3Gbps?
- 您能启动阵列配置实用程序并运行 HP ADU 诊断报告吗?
- 最后,关闭所有电源。让驱动器和机箱停止旋转。再试一次。
MSA60 和 Smart Array 控制器很少发生故障。我认为您遇到了错误。使用 RAID6(在大多数情况下不是最佳选择)和不受支持的磁盘可能会出现问题。尤其是使用 SATA。如果有的话,我会运行 RAID 1+0 以减少控制器出现问题的可能性。
最近的固件(过去一年)修复的潜在问题......
- 已添加保护措施以防止热添加硬盘时在极少数情况下智能阵列控制器可能挂起。
- 在极少数情况下,当 PHY 卡住的时间超过四秒时,智能阵列控制器会多次重置同一个 SATA 驱动器。
- 在巨大压力下,智能阵列控制器无法在 20 毫秒内连接到硬盘。
- 修复了 HP P812 控制器在重启时可能出现罕见锁定(代码 0xD4)的问题。
- 解决了将 SATA 磁盘热添加到 MSA-60、MSA-70 或 HP DL180-G6 12 驱动器背板后存储控制器可能无响应的问题。参考客户咨询 c03011608。
- 修复了在支持本机命令队列的 SATA 磁盘上同时处理许多不可恢复的读取错误可能导致锁定(代码 0x15)的问题。
- RAID 6/60 表面分析可能会导致后台奇偶校验扫描在进行过多的容错计算时停止响应。
- 连接到多个 MSA 60 存储系统的 Smart Array P812 控制器在繁重的 I/O 工作负载期间可能会遇到锁定情况(锁定代码 0XAB)。
- 热更换 HP Smart Array HDD 后,所有连接到更换 HDD 的扩展器的驱动器都报告位于托架 0 中。此问题出现在具有 12 托架和 25 托架背板的 HP StorageWorks MSA60、HP StorageWorks MSA70 和 HP ProLiant DL180 G6 上。
答案2
所以让我总结一下,如果我遗漏了什么,请纠正我;
- 您正在运行不受支持的磁盘
- 你正在运行不受支持的操作系统
- 你为了好玩而拔出磁盘
- 你丢失了你的阵列
是对的吗?
如果是这样,那么你想知道如何调试它,对吗?这个网站是为专业系统管理员而非业余爱好者准备的,我们的常见问题解答的第一行就是这么说的(你没看错,肯定没有跳过,对吧?),但你正在运行一个不受支持的磁盘设置,并且惊讶地发现造成不必要的故障会产生连锁反应 - 而且你是在一台有实际数据的服务器上这样做的,而不是在零价值的测试数据上。
我想你可能可以使用外部公司恢复您的数据,但这将非常昂贵,希望足以教您使用支持的配置并且永远不会为了好玩而导致故障。
顺便说一下,我有很多 PXXX 卡,可能是世界上最大的 P8xx 系列买家,在超过五年的使用过程中,我们从未在数百万磁盘/小时内丢失过一个阵列。