奇怪的反复过度 I/O 等待

Question 1

（例如，我假设您的磁盘直接连接到服务器，而不是通过 NFS。）

重要的是你的韓國（iostat输出中）是极其高，表明 RAID 或磁盘存在硬件问题。斯维特对于普通磁盘来说，大约为 4 (ms)。可能更少，但不会太高。

不幸的是，smartctl您的情况的输出不具参考价值。它已更正错误，但这可能是正常的。长时间测试似乎已完成，但仍然没有定论。ST3500620SS 似乎是老式的服务器/RAID 类型磁盘，它应该对读取错误做出快速响应（与台式机/非 RAID 磁盘不同），因此这可能是比坏扇区更复杂的硬件问题。尝试在 RAID 统计数据中查找异常情况（如高错误率）：http://hwraid.le-vert.net/wiki/LSIMegaRAIDSAS

我的建议是下一步应该更换磁盘。

更新：

斯维特是更重要的因素，因为高实用性%只是结果的韓國异常高。

我看到过类似的问题桌面磁盘已安装到承诺RAID。台式机磁盘设计为通过多次长时间重试来尝试修复读取错误，这会导致延迟（这些读取错误可能是由于其他因素造成的，例如振动，在服务器机房中比在台式机中强得多）。与此不同，设计用于 RAID 的磁盘只会快速向 RAID 控制器报告任何错误，后者可以通过 RAID 冗余纠正这些错误。此外，服务器磁盘可以设计为在机械上更耐持续强烈振动。有一种普遍的误解认为服务器磁盘与台式机相同，只是价格更贵，这是错误的，它们是实际上有所不同。

问：啊，我想问的是：如果是硬件问题，您不认为问题应该持续可见，而不是在一段时间内消失吗？您对这种影响有什么解释吗？

A：

问题可能一直存在，但它成为显仅在高负载下。
一天中的不同时间，振动水平可能不同（例如，取决于附近的服务器在做什么）。如果您的问题是磁盘受到振动的影响，那么它肯定会消失并重新出现。当我遇到“桌面磁盘”问题时，我看到了类似的行为。（当然，您的磁盘是服务器磁盘，建议用于 RAID，因此这不是完全相同的问题。但它可能是相似的。）

Answer

（例如，我假设您的磁盘直接连接到服务器，而不是通过 NFS。）

重要的是你的韓國（iostat输出中）是极其高，表明 RAID 或磁盘存在硬件问题。斯维特对于普通磁盘来说，大约为 4 (ms)。可能更少，但不会太高。

不幸的是，smartctl您的情况的输出不具参考价值。它已更正错误，但这可能是正常的。长时间测试似乎已完成，但仍然没有定论。ST3500620SS 似乎是老式的服务器/RAID 类型磁盘，它应该对读取错误做出快速响应（与台式机/非 RAID 磁盘不同），因此这可能是比坏扇区更复杂的硬件问题。尝试在 RAID 统计数据中查找异常情况（如高错误率）：http://hwraid.le-vert.net/wiki/LSIMegaRAIDSAS

我的建议是下一步应该更换磁盘。

更新：

斯维特是更重要的因素，因为高实用性%只是结果的韓國异常高。

我看到过类似的问题桌面磁盘已安装到承诺RAID。台式机磁盘设计为通过多次长时间重试来尝试修复读取错误，这会导致延迟（这些读取错误可能是由于其他因素造成的，例如振动，在服务器机房中比在台式机中强得多）。与此不同，设计用于 RAID 的磁盘只会快速向 RAID 控制器报告任何错误，后者可以通过 RAID 冗余纠正这些错误。此外，服务器磁盘可以设计为在机械上更耐持续强烈振动。有一种普遍的误解认为服务器磁盘与台式机相同，只是价格更贵，这是错误的，它们是实际上有所不同。

问：啊，我想问的是：如果是硬件问题，您不认为问题应该持续可见，而不是在一段时间内消失吗？您对这种影响有什么解释吗？

A：

问题可能一直存在，但它成为显仅在高负载下。
一天中的不同时间，振动水平可能不同（例如，取决于附近的服务器在做什么）。如果您的问题是磁盘受到振动的影响，那么它肯定会消失并重新出现。当我遇到“桌面磁盘”问题时，我看到了类似的行为。（当然，您的磁盘是服务器磁盘，建议用于 RAID，因此这不是完全相同的问题。但它可能是相似的。）

Question 2

我遇到了非常类似的问题。IBM ServeRaid M5110（更名为 LSI 9265-8i）和 CentOS 6.x

第一个 VD 是 4 个 IBM 品牌日立驱动器的 RAID0。

然后我们购买了三星 PM853T SSD，并将它们安装在另外 4 个驱动器中，并创建了另一个 RAID0。当我们将工作负载从磁盘切换到 SSD 时，每隔 1 小时 IO 就会猛增，所有操作都会停止。负载会从正常的约 2 上升到超过 80。几十秒后，一切都会平静下来，应用程序将继续运行。

这种情况在盘片上从来没有发生过。

所以，我的第一印象是 LSI 和三星之间存在某种不兼容性。经过几天的思考和调试，我发现 MegaCli64 是罪魁祸首。我们通过 Zabbix 运行它来监控驱动器的健康状况，但在扫描控制器时，MegaCli 会在 SSD 处停止等待，每个 SSD 需要几十秒，乘以 4，几乎需要两分钟。这会使所有 I/O 降至零，并使 iowait 和负载飙升。

解决方案是找到不会引起问题的 MegaCli 版本。我们从 IBM 网站下载了该版本。

Answer

我遇到了非常类似的问题。IBM ServeRaid M5110（更名为 LSI 9265-8i）和 CentOS 6.x

第一个 VD 是 4 个 IBM 品牌日立驱动器的 RAID0。

然后我们购买了三星 PM853T SSD，并将它们安装在另外 4 个驱动器中，并创建了另一个 RAID0。当我们将工作负载从磁盘切换到 SSD 时，每隔 1 小时 IO 就会猛增，所有操作都会停止。负载会从正常的约 2 上升到超过 80。几十秒后，一切都会平静下来，应用程序将继续运行。

这种情况在盘片上从来没有发生过。

所以，我的第一印象是 LSI 和三星之间存在某种不兼容性。经过几天的思考和调试，我发现 MegaCli64 是罪魁祸首。我们通过 Zabbix 运行它来监控驱动器的健康状况，但在扫描控制器时，MegaCli 会在 SSD 处停止等待，每个 SSD 需要几十秒，乘以 4，几乎需要两分钟。这会使所有 I/O 降至零，并使 iowait 和负载飙升。

解决方案是找到不会引起问题的 MegaCli 版本。我们从 IBM 网站下载了该版本。

Question 3

我们遇到了类似的问题，结果发现是由思科 UCSC-RAID12GP-4G卡。下面是我们如何解决问题。

找出 Linux 发现的哪个磁盘的 IO 卡在了飞行中。我们使用了这个命令：

watch -n .1 "tail /sys/block/{nvme,sda}*/stat | awk '{print \$9}'"

NVMe 的飞行中 IO 几乎始终为零。但是，第三项显示/dev/sda飞行中值相当稳定，很少变化（只会增加），因此我们知道这是 megaraid 控制器导出的磁盘的问题。

在系统的每个磁盘上运行 smartctl：

smartctl --scan | cut -f1 -d'#' | while read a; do echo ======= $a ; smartctl -a $a; done 2>&1|less

我们发现了一个类似这样的：

======= /dev/bus/1 -d megaraid,36
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.0-7.86.6.1.el9uek.x86_64-TEST+] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               HGST
Product:              HUH721010AL4200
Revision:             A21D
Compliance:           SPC-4
User Capacity:        10,000,831,348,736 bytes [10.0 TB]
Logical block size:   4096 bytes
LU is fully provisioned
Rotation Rate:        7200 rpm
Form Factor:          3.5 inches
Logical Unit id:      0x5000cca266873ed8
Serial number:        7JJDBTEG
Device type:          disk
Transport protocol:   SAS (SPL-3)
Local Time is:        Sat Sep 30 15:52:50 2023 PDT
SMART support is:     Available - device has SMART capability.
SMART support is:     Enabled
Temperature Warning:  Enabled

=== START OF READ SMART DATA SECTION ===
SMART Health Status: FIRMWARE IMPENDING FAILURE DATA ERROR RATE TOO HIGH [asc=5d, ascq=62]

因此，我们记下了磁盘序列号 (7JJDBTEG)，然后使用以下代码登录 MegaRAID 控制台：二甲基砜并将驱动器标记为脱机。IO 立即开始流动，系统无需重启即可恢复：

MSM 还显示驱动器上有错误：

Answer