由于飓风马修,我们公司关闭了所有服务器两天。其中一台服务器是 ESXi 主机,附带 HP StorageWorks MSA60。
今天,当我们重新启动并登录 vSphere 客户端时,我们发现所有客户虚拟机都不可用(它们都列为“无法访问”)。当我查看 vSphere 中的硬件状态时,阵列控制器和所有连接的驱动器都显示为“正常”,但所有驱动器都显示为“未配置的磁盘”。
我们重新启动了服务器并尝试进入 RAID 配置实用程序来查看那里的情况,但收到以下消息:
在 POST 期间报告了无效的驱动器移动。在无效驱动器移动之后对阵列配置进行修改将导致旧配置信息和原始逻辑驱动器的内容丢失
不用说,我们对此感到非常困惑,因为什么都没有“移动”;什么都没有改变。我们只是启动了 MSA 和服务器,从那时起就一直遇到这个问题。
MSA 通过单根 SAS 电缆连接,并且驱动器上贴有贴纸,因此我知道驱动器没有被移动或切换:
---------------------
| 01 | 04 | 07 | 10 |
---------------------
| 02 | 05 | 08 | 11 |
---------------------
| 03 | 06 | 09 | 12 |
---------------------
目前,我不知道这些驱动器的品牌和型号,但它们都是 1TB SAS 驱动器。
我有两个主要问题/疑虑:
由于我们只是关闭设备电源然后重新打开,那么是什么原因导致这种情况发生?我当然可以选择重建阵列并重新开始,但我对这种情况再次发生的可能性感到担忧(尤其是因为我不知道是什么原因造成的)。
我是否真的有可能恢复我们的阵列和客户虚拟机,而不必重建所有内容并恢复我们的虚拟机备份?
答案1
是的,这是一个非常危险的情况……
因此,HP Smart Array 控制器可以处理一定数量的物理驱动器移动,直到破坏阵列配置。请记住,HP RAID 元数据位于物理驱动器上,而不是控制器上...
MSA60 是一款 12 托架 3.5 英寸第一代 SAS JBOD 机箱。它于 2008/2009 年停产。它已经足够老旧,不应该成为关键的任何立即部署 vSphere。
在这种情况下,P411 控制器正在尝试保护您。您可能遭遇了多驱动器故障情况、遇到了固件错误、丢失了 MSA60 后部两个控制器接口中的一个或发生了其他奇怪的错误。
这听起来也像是较旧的服务器设置。因此,我想知道所涉及的服务器和 Smart Array P411 固件版本。
我建议切断所有组件的电源。等待几分钟。打开电源...并仔细观察 POST 提示。
请参阅我的回答中的详细信息:
重新启动后无法识别 HP Smart Array P800 上的逻辑驱动器
那里可能是重新启用先前发生故障的逻辑驱动器的选项,并可选择按F1
或F2
。如果出现,请尝试F2
。
答案2
你们不会相信这个……
首先,我尝试对现有 MSA 进行全新冷启动,等待几分钟,然后启动 ESXi 主机,但问题仍然存在。然后我关闭主机和 MSA,将驱动器移入备用 MSA,启动它,等待几分钟,然后启动 ESXi 主机;问题仍然存在。
那时,我觉得自己已经完全完蛋了,而且在 RAID 控制器初始化期间,我找不到任何选项来重新启用发生故障的逻辑驱动器。因此,我启动了 RAID 配置,再次确认没有逻辑驱动器,然后我创建了一个新的逻辑驱动器(RAID 1+0,带有两个备用驱动器;与我们大约 2 年前首次设置此主机和存储时所做的一样)。
然后我让服务器重新启动到 vSphere,并通过 vCenter 访问它。我做的第一件事是从库存中删除主机,然后重新添加它(我希望通过这种方式清除所有无法访问的客户虚拟机,但它并没有从库存中清除它们)。主机回到库存后,我一次删除一个客户虚拟机。清除库存后,我确认没有数据存储存在,磁盘基本上已经准备好并作为“数据磁盘”等待。所以我继续创建一个新的数据存储(同样,就像我们几年前使用 VMFS 所做的一样)。我最终被提示指定一个挂载选项,我可以选择“保留现有签名”。此时,我认为保留签名是值得一试的——如果事情没有成功,我可以随时将其删除并重新创建数据存储。在我完成使用保留签名选项构建数据存储的过程后,我尝试导航到数据存储以查看其中是否有任何内容——它看起来是空的。出于好奇,我通过 SSH 连接到主机并从那里进行检查,令我惊讶的是,我可以看到我所有的旧数据和所有旧的客户虚拟机!我回到 vCenter 并重新扫描存储并刷新控制台,我们所有的旧客户虚拟机都在那里!我重新注册了每个虚拟机并能够恢复所有内容!我们所有的客户虚拟机都已备份并成功在网络上通信。
我认为 IT 社区中的大多数人都会同意发生这样的事情的可能性极低甚至是不可能的。
在我看来,这是上帝的奇迹……