生产环境中 VMware 主机的驱动器出现故障

生产环境中 VMware 主机的驱动器出现故障

我有一台运行 ESXi 5.1 的 Dell PE R710,配有 PERC 6/i。它有两个数据存储区,其中一个是 RAID1 中的两个 SSD。今天早上有人打电话给我,说有些东西出了问题。最初,我登录到 vSphere 客户端,发现虚拟机没有响应。我尝试停止所有虚拟机,但什么也没发生。我尝试浏览数据存储区,但没有出现任何文件夹/文件。阅读了一些知识库文章后,我运行了两个命令:/etc/init.d/hostd restart -and- /etc/init.d/vpxa restart

当时,数据存储区未出现在 vSphere 中。来到服务器前,LCD 面板上显示以下内容:E1810 硬盘故障。因此,看起来某个驱动器坏了。通常在 Windows 服务器上,我只需热插拔驱动器即可。但由于这是 VMware,我不确定正确的程序。任何帮助我都会不胜感激!

答案1

如果数据无法访问,则可能是由于多磁盘故障或类似原因导致阵列丢失。当未实施硬件监控且您在意识到之前丢失了太多 RAID 成员时,就会发生这种情况。在更常见的硬件故障(例如卡不稳定)期间也会发生这种情况。

在这些情况下,通常只有当您的服务中断并且阵列完整性受到损坏到需要从备份中恢复的程度时,您才会收到警报。

您的更换驱动器的过程与 Windows、Linux 或该机器上的任何其他操作系统完全相同。您的硬件 RAID 卡负责处理所有事情。但是,热交换可能对您没有任何好处,因为您的整个阵列可能都已损坏,而不仅仅是性能下降。在执行任何操作之前,请评估阵列的状况,方法是使用软件工具(例如megacliDell OpenManage),或者重新启动到卡的 BIOS 界面并在那里检查阵列。还要检查 iDRAC 中可能指示故障的硬件日志。

在这种情况下,您可能需要从备份中恢复,因为您可能会发现您的两个 SSD 都坏了,或者您的控制器/背板坏了(或以上所有情况)。最好将您的数据恢复到另一个节点,并将该节点停止生产,直到您可以确定这是多磁盘、控制器还是背板故障。

答案2

所以最后,我最终启动了 RAID 控制器配置并检查了物理驱动器。它被标记为“丢失”,更糟糕的是配置为 RAID0。我关闭了服务器并重新安装了驱动器。启动服务器时,RAID 控制器指示外部配置,但我没有导入它。ESXi 启动后,SSD 的数据存储仍然无法识别。我关闭了服务器。我启动了它,这次将外部配置导入了 RAID 控制器。ESXi 启动并识别了 SSD 数据存储!我立即提取了所有数据。

相关内容