3Ware RAID6 阵列有时会挂起。未检测到损坏的磁盘？

Question 1

目前尚未提出的两件事：

这是 SATA RAID 控制器吗？如果是，SATA 电缆容易老化，更换它们可能会轻松解决此类问题。大多数情况下，当出现磁盘错误、延迟、超时但 SMART 值都正常且驱动器通过所有自检时，可以尝试此方法。不幸的是，找到一个好的 SATA 电缆供应商很困难。
3Ware RAID 控制器已经过时，目前已不再受支持。您既得不到固件升级，也得不到备件。如果您的控制器坏了，如果没有匹配的控制器和固件，RAID 可能无法恢复。然后需要昂贵的数据恢复。

Answer

目前尚未提出的两件事：

这是 SATA RAID 控制器吗？如果是，SATA 电缆容易老化，更换它们可能会轻松解决此类问题。大多数情况下，当出现磁盘错误、延迟、超时但 SMART 值都正常且驱动器通过所有自检时，可以尝试此方法。不幸的是，找到一个好的 SATA 电缆供应商很困难。
3Ware RAID 控制器已经过时，目前已不再受支持。您既得不到固件升级，也得不到备件。如果您的控制器坏了，如果没有匹配的控制器和固件，RAID 可能无法恢复。然后需要昂贵的数据恢复。

Question 2

此问题可能是由于其中一个磁盘遇到读取错误并阻塞整个阵列，直到它设法重新分配扇区或 RAID 控制器认为驱动器已损坏并将其从阵列中启动出来，将其标记为“降级”（这完全取决于相关控制器）。如果磁盘开始损坏但仍通过 SMART，则可能经常发生这种情况。大多数消费者磁盘将继续尝试读取。

在某些用于 RAID 的驱动器中，这个问题可以通过使用一种称为错误恢复控制。WD 将此称为 TLER。摘自网站：

RAID-specific time-limited error recovery (TLER) - Pioneered by WD, this feature prevents drive fallout caused by the extended hard drive error-recovery processes common to desktop drives.

基本上，它告诉磁盘，如果它无法读取某个扇区，则在 x 秒后放弃。这在 RAID 中非常有用，因为可以从另一个磁盘恢复数据。

据我所知，ST32000542AS 没有实现任何形式的 ERC，因此它们中的任何一个都可以阻止整个阵列。WD2002FYPS 实际上实现了 WD 的 TLER，因此它们不会导致此问题。

Answer

此问题可能是由于其中一个磁盘遇到读取错误并阻塞整个阵列，直到它设法重新分配扇区或 RAID 控制器认为驱动器已损坏并将其从阵列中启动出来，将其标记为“降级”（这完全取决于相关控制器）。如果磁盘开始损坏但仍通过 SMART，则可能经常发生这种情况。大多数消费者磁盘将继续尝试读取。

在某些用于 RAID 的驱动器中，这个问题可以通过使用一种称为错误恢复控制。WD 将此称为 TLER。摘自网站：

RAID-specific time-limited error recovery (TLER) - Pioneered by WD, this feature prevents drive fallout caused by the extended hard drive error-recovery processes common to desktop drives.

基本上，它告诉磁盘，如果它无法读取某个扇区，则在 x 秒后放弃。这在 RAID 中非常有用，因为可以从另一个磁盘恢复数据。

据我所知，ST32000542AS 没有实现任何形式的 ERC，因此它们中的任何一个都可以阻止整个阵列。WD2002FYPS 实际上实现了 WD 的 TLER，因此它们不会导致此问题。

Question 3

只是为了确认一下，您的固件版本是什么？

当满足以下要求时，我遇到了一个问题 - 这听起来很像您所描述的：

3ware 96xx 系列控制器
RAID 6
256k 条带大小
固件版本 < v4.10.00.021*

当时没有可用的固件修复程序，所以我将条带大小从 256k 迁移到 64k，这也解决了这个问题。您可以尝试一种解决方法，尽管这肯定需要几天时间才能完成。

后来我尝试了新的固件（* 4.10.00.021，我认为已经修复）256k，效果很好。4.10.00.027 是最新版本。

Answer