我们正在尝试对带有 P410i 控制器的 DL360 G7 进行故障排除。
正如帖子标题中提到的,现场技术人员拔出了所有磁盘,但忘记了拔出的顺序。我们原本以为服务器是冷备用,但显然执行安装的供应商错误标记了主机。它是我们的一个应用服务器。
当我们让技术人员重新安装磁盘时,我们收到如下错误:
“物理磁盘已重新排序。之前发生故障的磁盘 3、4 现已恢复运行。
按 f1 继续禁用逻辑驱动器。按 f2 接受数据丢失并继续。
我们联系了 HP,但他们毫无帮助。他们说恢复可能是不可能的,我们可以尝试移动磁盘的不同排列方式,但不能保证操作系统 (RHEL 5) 会启动。他们很确定操作系统被搞坏了。
我想弄清楚的是……
- 为什么移动磁盘意味着操作系统被破坏?所有阵列信息都写入驱动器的前几个扇区。控制器可以查看它并说“嘿,这个磁盘不在正确的位置。我现在要冻结了。”似乎他们向磁盘写入了额外的信息,将其标记为失败,从而破坏了其阵列关联。
- 有人遇到过这种情况吗?HP 是否正确?操作系统是否已损坏?是否有任何方法可以恢复?
- HP 建议,即使服务器关闭,同时拔出所有磁盘也会导致控制器停止识别阵列。但这没有任何意义,因为阵列信息是写入磁盘本身的。这就是为什么你可以在一台服务器上建立一个阵列,然后取出阵列中的所有磁盘并将它们移动到类似的服务器上,它应该可以启动。
- 如果我们按正确的顺序放置驱动器,服务器是否会在不提示我们的情况下启动?我们有大约 30 种排列方式需要处理。如果我们不断收到磁盘故障的提示,就很难判断我们是否找到了正确的组合。
编辑:跟进此项目。看来我们无法恢复,而且成功率不高。我们的问题因一些其他问题而加剧。
- 驱动器被从主机中移除,并被插入到与原始顺序不同的另一台主机中。这可能会导致该阵列信息的数据损坏,并且无法轻易恢复。
- 当驱动器放回服务器时,它们的顺序没有得到保持。这可能会导致阵列元数据出现进一步的问题。
在我们的实验室进行一些测试后,似乎使用 raid 1+0 并交换驱动器顺序不是似乎会影响阵列的功能,即使驱动器顺序被严重修改。这表明问题确实与在主机之间移动驱动器时阵列元数据被损坏有关。
答案1
跟踪此项目。看来我们无法成功恢复。我们的问题因一些其他问题而加剧。
- 驱动器被从主机中移除,并被插入到与原始顺序不同的另一台主机中。这可能会导致该阵列信息的数据损坏,并且无法轻易恢复。
- 当驱动器放回服务器时,它们的顺序没有得到保持。这可能会导致阵列元数据出现进一步的问题。
在我们的实验室进行一些测试后,发现使用 raid 1+0 并交换驱动器顺序似乎不会影响阵列的功能,即使驱动器顺序被严重修改。这表明问题确实与在主机之间移动驱动器时阵列元数据被损坏有关。