如何判断 ESXi 上的磁盘是否出现故障/这些错误意味着什么?

如何判断 ESXi 上的磁盘是否出现故障/这些错误意味着什么?

我有一台运行 VMware ESXi v4.1.0 348481 的服务器。它有一个硬件 RAID10 和一个 SATA 备份驱动器。我有一个正在运行的 VM,其主启动 vmdk 位于 RAID10 数据存储区上,600 GB vmdk 位于 SATA 备份驱动器的数据存储区上。该 VM 运行带有 FreeBSD 内核的 D​​ebian Linux,并使用 ZFS 作为备份驱动器。

编辑:驱动器是不是直接连接到虚拟机。它用作 VMware 数据存储,并且虚拟机在 SATA 驱动器的数据存储上有一个 vmdk。数据存储是不是已满(仅 65% 已满)

我使用 SSH 登录到服务器,发现昨晚的备份挂了,或者zfs list两者zpool list都挂了。于是我打开了 ESXi 中的虚拟控制台,难过的看到:

这张截图让我很难过

(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)
(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)

我尝试重新启动虚拟机,然后收到一条消息,提示系统正在重新启动,然后挂起。(出现 ^C 但没有终止shutdown)。我无法中断或或kill -9进程——我尝试时没有任何反应。zpool list zfs listrsync

  1. 这是否表示备份 SATA 驱动器出现故障?或者这只是 ESXi 错误?
  2. 在 vSphere 客户端中,我如何判断驱动器是否发生故障?我没有看到任何迹象,硬件健康状态下的一切看起来都很好,但在存储配置下我什么也没看到。
  3. 我该如何继续?我应该直接重启虚拟机吗?

更新:我刚刚硬重启了虚拟机。虚拟机恢复在线后,备份 zpool 也在线,但是:

root@timestandstill:/home/jnet# zpool status -v
  pool: backup
 state: ONLINE
status: One or more devices has experienced an error resulting in data
        corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
        entire pool from backup.
   see: http://www.sun.com/msg/ZFS-8000-8A
 scrub: none requested
config:

        NAME        STATE     READ WRITE CKSUM
        backup      ONLINE       0     0     0
          da1       ONLINE       0     0     0


errors: Permanent errors have been detected in the following files:

        /backups/someserver/home/someuser/public_html/somedir/calendar/someuser/calendars/somefile.ics

我非常倾向于更换驱动器...

答案1

这些错误确实表明其中一个 SATA 驱动器遇到了足够多的坏块,导致块重新分配空间不足。该驱动器已损坏,需要更换。我不确定 vSphere 客户端中显示该信息的哪个位置,但日志条目非常清楚。

如果您的硬件允许,热插拔应该是可行的。否则,您将不得不关闭所有设备才能执行更换。如果该虚拟机在 30 分钟后仍未自行关闭,则是时候硬终止它了。这很危险,但如果它真的挂了,那就没什么可做的了。

相关内容