减少 Ubuntu 中的坏块重试/等待时间

Question 1

我以前没有使用过这个可调参数，但你可能想调整呃_超时（错误处理超时）有问题的驱动器：

[root@localhost device]# cat /sys/block/sda/device/eh_timeout
10
[root@localhost device]#

上面显示sda设置为 10 秒。来自红帽知识库：

在某些存储配置（例如，具有许多 LUN 的配置）中，SCSI 错误处理代码可能会花费大量时间向无响应的存储设备发出 TEST UNIT READY 等命令。 SCSI 设备对象中添加了新的 sysfs 参数 eh_timeout，该参数允许配置 SCSI 错误处理代码使用的 TEST UNIT READY 和 REQUEST SENSE 命令的超时值。这减少了检查这些无响应设备所花费的时间。 eh_timeout 的默认值为 10 秒，这是添加此功能之前使用的超时值。

Answer

我以前没有使用过这个可调参数，但你可能想调整呃_超时（错误处理超时）有问题的驱动器：

[root@localhost device]# cat /sys/block/sda/device/eh_timeout
10
[root@localhost device]#

上面显示sda设置为 10 秒。来自红帽知识库：

在某些存储配置（例如，具有许多 LUN 的配置）中，SCSI 错误处理代码可能会花费大量时间向无响应的存储设备发出 TEST UNIT READY 等命令。 SCSI 设备对象中添加了新的 sysfs 参数 eh_timeout，该参数允许配置 SCSI 错误处理代码使用的 TEST UNIT READY 和 REQUEST SENSE 命令的超时值。这减少了检查这些无响应设备所花费的时间。 eh_timeout 的默认值为 10 秒，这是添加此功能之前使用的超时值。

Question 2

监视/sys/block/<dev>/stat您感兴趣的设备并比较第 10 个参数 (io_ticks)。

例如，ticks = io_ticks - prev_ticks / seconds_deltatime / 10

这是磁盘用于等待磁盘 io 的可用时间的百分比。

当然，接近 100% 值得检查，或者变得非常聪明，将其与所有磁盘的平均值进行比较，并选择高于平均值的任何磁盘。

请参阅块层统计文档。

或者使用 Munin 之类的东西并将其绘制成图表。如果它超过阈值（例如 90% 或任何您的图表显示的良好警报数字），您可以让 Munin 发出警报。

例如，请参阅这两个 Munin 图，显示 /dev/sdi 需要查看。在此示例中，如果 /dev/sdi 是数组的一部分，则整个数组都会因此受到影响。

每台设备的磁盘利用率 - 按天

每台设备的磁盘利用率 - 按周

如果您查看周图，您会发现 /dev/sdc 也可能很慢。

我应该补充一点，上面的 /dev/sdi 并没有损坏，它只是一个缓慢的磁盘（实际上是一个绿色磁盘，有人添加到企业级SATA磁盘阵列中），这降低了阵列的速度。实际发生故障的磁盘会像拇指酸痛一样突出。

总之，如果有时间的话，我可能会使用脚本，但是如果我只是想要一个快速的解决方案并且连接到服务器很容易，那么 Munin 就可以了。

Answer