如何诊断带有 RAID 存储控制器的服务器上的故障驱动器？

Question 1

如果您不愿意重新启动系统来安装制造商的工具，那么您基本上会一直坐在这里，直到机器完全死机。
到那时，您想要什么都无关紧要了。机器将停机，可能永远停机。您不必担心重新启动，因为您必须这样做，这是更换硬盘和从备份中恢复的一部分。（您做有备份吧？）。

讲座结束。

如果您不想安装制造商的诊断工具，您唯一剩下的选择就是亲自走到机器前，寻找闪烁着红色（或黄色）“故障”指示灯的驱动器。更换那个。
当然，这假设 RAID-1、RAID-5、RAID-6 或其他一些允许您更换单个故障驱动器的配置（并且您只有一个故障驱动器）。如果您没有这样的配置，或者发生故障的驱动器数量超过系统的容错级别，那么您将回到“更换所有驱动器并从备份中恢复”的阶段。

缺少备份，你只能陷入“进行备份，如果您没有得到您需要的一切，请致电数据恢复公司并尝试挽救您能挽救的一切”。

Answer

如果您不愿意重新启动系统来安装制造商的工具，那么您基本上会一直坐在这里，直到机器完全死机。
到那时，您想要什么都无关紧要了。机器将停机，可能永远停机。您不必担心重新启动，因为您必须这样做，这是更换硬盘和从备份中恢复的一部分。（您做有备份吧？）。

讲座结束。

如果您不想安装制造商的诊断工具，您唯一剩下的选择就是亲自走到机器前，寻找闪烁着红色（或黄色）“故障”指示灯的驱动器。更换那个。
当然，这假设 RAID-1、RAID-5、RAID-6 或其他一些允许您更换单个故障驱动器的配置（并且您只有一个故障驱动器）。如果您没有这样的配置，或者发生故障的驱动器数量超过系统的容错级别，那么您将回到“更换所有驱动器并从备份中恢复”的阶段。

缺少备份，你只能陷入“进行备份，如果您没有得到您需要的一切，请致电数据恢复公司并尝试挽救您能挽救的一切”。

Question 2

磁盘上有中等错误，这意味着有数据无法读取。LSI 日志信息 (0x31080000) 告诉您，由于 SATA 执行错误恢复的方式，后续 IO 失败。这本身不是问题。

您的磁盘损坏，并且已经丢失了数据，如果您使用的是 RAID，那么它也无法正常工作。尽管您很可能根本没有 RAID，但要知道这一点，您应该查看 lsscsi 的输出，它会告诉您 /dev/sda 设备的品牌和型号。如果它显示硬盘（WD、Hitachi、Seagate），则表示那里有一个单独的 HDD，如果它显示 LSI，则表示您有一个 RAID 设备。

无论哪种方式，您都已经丢失了数据，因为即使它是 RAID 设备，它也无法从底层的中等错误中恢复，并且最后也返回了中等错误。

这之后该怎么办？

您需要找到丢失的文件，尝试逐个读取它们（find、xargs 和 cat 是这方面的好工具），然后查看无法读取哪些文件。您需要从备份中取出它们。

要恢复扇区，只需再次写入它们，它将修复当前的介质错误，您可以删除文件或覆盖它们，文件系统将自行执行这些操作。

要知道 HDD 是否仍然值得使用，您需要查看问题是否重复或扩展，您可以使用 smartctl 来实现这一点，主要查找重新分配的次数，如果它在任何一个月增长超过一次，您就需要更换它。

如果有疑问并且您关心数据，请更换磁盘。有介质错误的磁盘比没有介质错误的磁盘更有可能损坏。

Answer