如何判断 ESXi 上的磁盘是否出现故障/这些错误意味着什么？

2024-5-28 • tag-icon

我有一台运行 VMware ESXi v4.1.0 348481 的服务器。它有一个硬件 RAID10 和一个 SATA 备份驱动器。我有一个正在运行的 VM，其主启动 vmdk 位于 RAID10 数据存储区上，600 GB vmdk 位于 SATA 备份驱动器的数据存储区上。该 VM 运行带有 FreeBSD 内核的 Debian Linux，并使用 ZFS 作为备份驱动器。

编辑：驱动器是不是直接连接到虚拟机。它用作 VMware 数据存储，并且虚拟机在 SATA 驱动器的数据存储上有一个 vmdk。数据存储是不是已满（仅 65％已满）

我使用 SSH 登录到服务器，发现昨晚的备份挂了，或者zfs list两者zpool list都挂了。于是我打开了 ESXi 中的虚拟控制台，难过的看到：

这张截图让我很难过

(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)
(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)

我尝试重新启动虚拟机，然后收到一条消息，提示系统正在重新启动，然后挂起。（出现 ^C 但没有终止shutdown）。我无法中断或或kill -9进程——我尝试时没有任何反应。zpool list zfs listrsync

这是否表示备份 SATA 驱动器出现故障？或者这只是 ESXi 错误？
在 vSphere 客户端中，我如何判断驱动器是否发生故障？我没有看到任何迹象，硬件健康状态下的一切看起来都很好，但在存储配置下我什么也没看到。
我该如何继续？我应该直接重启虚拟机吗？

更新：我刚刚硬重启了虚拟机。虚拟机恢复在线后，备份 zpool 也在线，但是：

root@timestandstill:/home/jnet# zpool status -v
  pool: backup
 state: ONLINE
status: One or more devices has experienced an error resulting in data
        corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
        entire pool from backup.
   see: http://www.sun.com/msg/ZFS-8000-8A
 scrub: none requested
config:

        NAME        STATE     READ WRITE CKSUM
        backup      ONLINE       0     0     0
          da1       ONLINE       0     0     0


errors: Permanent errors have been detected in the following files:

        /backups/someserver/home/someuser/public_html/somedir/calendar/someuser/calendars/somefile.ics

我非常倾向于更换驱动器...

答案1

这些错误确实表明其中一个 SATA 驱动器遇到了足够多的坏块，导致块重新分配空间不足。该驱动器已损坏，需要更换。我不确定 vSphere 客户端中显示该信息的哪个位置，但日志条目非常清楚。

如果您的硬件允许，热插拔应该是可行的。否则，您将不得不关闭所有设备才能执行更换。如果该虚拟机在 30 分钟后仍未自行关闭，则是时候硬终止它了。这很危险，但如果它真的挂了，那就没什么可做的了。

答案1

相关内容