干净的 ext3 分区出现输入/输出错误 - 如何检查数据块有什么问题

Question 1

因此，为了解决这个问题，我做了以下事情。

取出你的区块编号，乘以四，再加一

(130856866 * 4) + 1 = 523427465

这表示报告产生 I/O 错误的扇区。块大小为 2k，扇区为 512 字节。额外的一个扇区表示分区的起始扇区偏移量。

为了与 SMART 关联，我们需要将现在的值转换为十六进制。

$ printf "0x%x\n" 523427465
0x1f32de89

现在，当您将其与 SMART 显示的内容进行关联时，就会出现一条可疑的接近线。

20 34463:43  810000001f32decd  [3,11,0]   Require Write or Reassign Blocks command

有多远？

$ bc -l
bc 1.06.95
Copyright 1991-1994, 1997, 1998, 2000, 2004, 2006 Free Software Foundation, Inc.
This is free software with ABSOLUTELY NO WARRANTY.
For details type `warranty'. 
obase=16
ibase=16
1F32DECD-1F32DE89
44

计算结果显示距离仅在 34816 到 32768 字节之间，但是我们无法说出组成该块的四个扇区中哪个扇区已损坏。

如果我不得不猜测的话，我会说可能同一地址周围有大量的块会报告 I/O 错误（假设 raid 条带化的大小为 32k 或其他）。

此外，如果 RAID 从另一个磁盘获取块，则读取可能无法发现问题。无论如何，写入必须传播到 RAID1 设置中的所有磁盘，因此这可能会导致写入失败但读取成功。此外，如果我们假设 RAID 卡的块大小为 32k，我们还可以假设损坏的块加上 SMART 报告的块都是由该盘片上发生的任何事情造成的。它只是从好磁盘读取前 32k 和从坏磁盘读取接下来 32k 的 SMART 测试。

现代硬盘会保留“保留扇区”，以便用新扇区位置替换此类损坏的扇区。鉴于您现在收到此消息，以及Reassign by disk failed来自智能设备的消息，我认为磁盘已耗尽。

至于如何解决这个问题，那就比较棘手了。LBA 寻址是对底层真实磁盘的抽象。您需要确定是哪个磁盘导致了此问题，在 RAID 阵列中将其故障并替换它。

无论如何，您的磁盘有问题，您应该尽快更换它。

Answer

因此，为了解决这个问题，我做了以下事情。

取出你的区块编号，乘以四，再加一

(130856866 * 4) + 1 = 523427465

这表示报告产生 I/O 错误的扇区。块大小为 2k，扇区为 512 字节。额外的一个扇区表示分区的起始扇区偏移量。

为了与 SMART 关联，我们需要将现在的值转换为十六进制。

$ printf "0x%x\n" 523427465
0x1f32de89

现在，当您将其与 SMART 显示的内容进行关联时，就会出现一条可疑的接近线。

20 34463:43  810000001f32decd  [3,11,0]   Require Write or Reassign Blocks command

有多远？

$ bc -l
bc 1.06.95
Copyright 1991-1994, 1997, 1998, 2000, 2004, 2006 Free Software Foundation, Inc.
This is free software with ABSOLUTELY NO WARRANTY.
For details type `warranty'. 
obase=16
ibase=16
1F32DECD-1F32DE89
44

计算结果显示距离仅在 34816 到 32768 字节之间，但是我们无法说出组成该块的四个扇区中哪个扇区已损坏。

如果我不得不猜测的话，我会说可能同一地址周围有大量的块会报告 I/O 错误（假设 raid 条带化的大小为 32k 或其他）。

此外，如果 RAID 从另一个磁盘获取块，则读取可能无法发现问题。无论如何，写入必须传播到 RAID1 设置中的所有磁盘，因此这可能会导致写入失败但读取成功。此外，如果我们假设 RAID 卡的块大小为 32k，我们还可以假设损坏的块加上 SMART 报告的块都是由该盘片上发生的任何事情造成的。它只是从好磁盘读取前 32k 和从坏磁盘读取接下来 32k 的 SMART 测试。

现代硬盘会保留“保留扇区”，以便用新扇区位置替换此类损坏的扇区。鉴于您现在收到此消息，以及Reassign by disk failed来自智能设备的消息，我认为磁盘已耗尽。

至于如何解决这个问题，那就比较棘手了。LBA 寻址是对底层真实磁盘的抽象。您需要确定是哪个磁盘导致了此问题，在 RAID 阵列中将其故障并替换它。

无论如何，您的磁盘有问题，您应该尽快更换它。

Question 2

有很多事情需要处理...但有几件事引起了我的注意。

您的内核版本是：2.6.18-164.15.1.el5 - 表示您的内核修订版本处于 EL5.4 级别，或者大约 2010 年 3 月。

我在 EL5 中一直遇到 ext3 文件系统稳定性和损坏问题。直到 2012 年中期，问题才得到完全解决。最糟糕的情况是，我与一家云基础设施公司合作，该公司从未更新过其基础版本的内核。因此，我开始在数千台 EL5 服务器上大规模看到这些问题。

您是否可以更新您的 OS/内核/e2fsprogs、fsck 并再试一次？

此外，如果内核是 2010 年左右的版本，则系统的 BIOS 和 Smart Array P410 固件可能已经非常过时。这是什么型号的服务器？

编辑：

cciss CHECK_CONDITION 错误就是明证。此时甚至不需要处理 SMART。运行HP 阵列诊断实用程序它会将错误信息提炼成报告。无论哪种方式，我真的希望这不是 RAID5 阵列。

您可以发布输出吗hpacucli ctrl all show config detail？

Answer

有很多事情需要处理...但有几件事引起了我的注意。

您的内核版本是：2.6.18-164.15.1.el5 - 表示您的内核修订版本处于 EL5.4 级别，或者大约 2010 年 3 月。

我在 EL5 中一直遇到 ext3 文件系统稳定性和损坏问题。直到 2012 年中期，问题才得到完全解决。最糟糕的情况是，我与一家云基础设施公司合作，该公司从未更新过其基础版本的内核。因此，我开始在数千台 EL5 服务器上大规模看到这些问题。

您是否可以更新您的 OS/内核/e2fsprogs、fsck 并再试一次？

此外，如果内核是 2010 年左右的版本，则系统的 BIOS 和 Smart Array P410 固件可能已经非常过时。这是什么型号的服务器？

编辑：

cciss CHECK_CONDITION 错误就是明证。此时甚至不需要处理 SMART。运行HP 阵列诊断实用程序它会将错误信息提炼成报告。无论哪种方式，我真的希望这不是 RAID5 阵列。

您可以发布输出吗hpacucli ctrl all show config detail？

Question 3

实际失败的块可以从内核日志中读取，您可以在下面的某处读取/var/log（可能是/var/log/kernel.log），或者从命令的输出中读取dmesg。

注意：您需要的不是磁盘扇区号，而是分区和文件系统特定的块号。从 2.4.x 开始的内核都在 dmesg 中显示这两个信息。

给 e2fsck 一个-L标志可以将这个块列表添加到文件系统的坏块列表中。因此正确的步骤如下：

首先，从 dmesg 检查坏块列表。

其次，将它们放入一个简单的文本文件中，

cat >badblockfile.txt
34252345
3452345
23452345

（Ctrl/D）

e2fsck -f -y -C0 /dev/diskname -L badblockfile.txt

如果您无法解释 dmesg，请将相关部分放在这里作为注释或问题的扩展。

扩大

您的文件系统有 2k 块，并从硬盘的第一个扇区（有 512 字节扇区）开始。因此，文件系统块（可以提供给 e2fsck）和磁盘块（在 dmesg 输出中）之间的公式非常简单：

filesystem_block=(serctor_no-1)/4

如果您的消息中没有文件系统级块，您也可以使用此公式。

替代提示

还有一个额外的提示：e2fsck 有一个标志-c。这会在检查之前调用该工具badblocks，并将新发现的坏块标记为坏块。根据我的经验，它确实不行，在大多数情况下它找不到所有的坏块。我代替你在一个周末（或至少一晚）无限循环地运行了这个：

while true; do e2fsck -f -y -C0 -c /dev/sdf;done

Answer