EC2 实例上的 Ubuntu 12.04 中 I/O 等待导致负载过高

Question 1

调整你的mysql服务以避免接触磁盘，并留意你的postfix队列，你可能将大量的电子邮件放入I/O敏感队列（即延迟的、具有随机读取行为的小项目）。

您的电子邮件系统已被用作垃圾邮件发送者的中继。

看一眼postfix 文档并限制对您的 MTA 的中继访问。

Answer

调整你的mysql服务以避免接触磁盘，并留意你的postfix队列，你可能将大量的电子邮件放入I/O敏感队列（即延迟的、具有随机读取行为的小项目）。

您的电子邮件系统已被用作垃圾邮件发送者的中继。

看一眼postfix 文档并限制对您的 MTA 的中继访问。

Question 2

使用 iostat 和 iotop 收集更多信息后进行编辑
您的磁盘已满 100%，因为它的可用 IOPS 已耗尽：根据 iostat，您拥有恒定的 50+ IOPS（85 w/s - 35 合并 w/s）。EC2 实例（尤其是廉价实例）对持续 IOPS 有严格的限制（在 30-50 IOPS 范围内）。

根据新的 iotop 输出，mysql 和 bounce 都消耗了大量 IOPS。但是，iotop 的输出似乎不完整，或者至少排序很差。您可以重新运行“iotop -a”，一次按 IOPS 排序，另一次按磁盘写入排序吗？

原始答案
我的赌注：“反弹”过程正在发出许多同步写入，这些写入会阻塞亚马逊提供的虚拟磁盘设备（顺便问一下，您使用的是什么配置文件？EC2 磁盘对于持续 I/O 与突发 I/O 有非常严格的规则）。

无论如何，确定消耗 I/O 带宽的因素有时可能有些困难。虽然 iotop 是一款非常好的工具，但有时它不会提供所需的信息。我们需要更深入地研究。因此，请遵循以下建议：

首先，我们需要识别正在处理的 I/O 类型和受影响的块设备。
请运行以下命令：iostat -x -k 5 2。请报告两个结果集。
然后，我们需要识别等待 I/O 的进程。
何时可以使用“top”：启动它，按 shift+f (F)，然后按 w，然后按 Enter，然后按 shift+r (R)。第一个进程将是处于 D 或 D+ 状态的进程（即：等待磁盘/网络）。请报告列表。
使用 iotop 显示进程的累积 I/O 值。
运行iotop -a约一分钟并将输出粘贴到这里。

Answer

使用 iostat 和 iotop 收集更多信息后进行编辑
您的磁盘已满 100%，因为它的可用 IOPS 已耗尽：根据 iostat，您拥有恒定的 50+ IOPS（85 w/s - 35 合并 w/s）。EC2 实例（尤其是廉价实例）对持续 IOPS 有严格的限制（在 30-50 IOPS 范围内）。

根据新的 iotop 输出，mysql 和 bounce 都消耗了大量 IOPS。但是，iotop 的输出似乎不完整，或者至少排序很差。您可以重新运行“iotop -a”，一次按 IOPS 排序，另一次按磁盘写入排序吗？

原始答案
我的赌注：“反弹”过程正在发出许多同步写入，这些写入会阻塞亚马逊提供的虚拟磁盘设备（顺便问一下，您使用的是什么配置文件？EC2 磁盘对于持续 I/O 与突发 I/O 有非常严格的规则）。

无论如何，确定消耗 I/O 带宽的因素有时可能有些困难。虽然 iotop 是一款非常好的工具，但有时它不会提供所需的信息。我们需要更深入地研究。因此，请遵循以下建议：

首先，我们需要识别正在处理的 I/O 类型和受影响的块设备。
请运行以下命令：iostat -x -k 5 2。请报告两个结果集。
然后，我们需要识别等待 I/O 的进程。
何时可以使用“top”：启动它，按 shift+f (F)，然后按 w，然后按 Enter，然后按 shift+r (R)。第一个进程将是处于 D 或 D+ 状态的进程（即：等待磁盘/网络）。请报告列表。
使用 iotop 显示进程的累积 I/O 值。
运行iotop -a约一分钟并将输出粘贴到这里。

Question 3

虽然有点晚了，但我在类似的机器上也遇到了同样的问题，发现问题出在一堆损坏的 MySQL 表上。由于其中一些表包含大量数据，因此会产生大量 I/O 等待时间。

查看/var/log/mysql/error.log或使用它mysqlcheck来查找和修复损坏的数据。

Answer

虽然有点晚了，但我在类似的机器上也遇到了同样的问题，发现问题出在一堆损坏的 MySQL 表上。由于其中一些表包含大量数据，因此会产生大量 I/O 等待时间。

查看/var/log/mysql/error.log或使用它mysqlcheck来查找和修复损坏的数据。

Question 4

磁盘可能处于非 DMA 模式。请检查驱动器的 DMA 状态。（hdparm 命令）

如果不是这样，其他东西可能会产生大量中断。有人还记得那些来自古老 DOS 时代的中断吗？

Answer

磁盘可能处于非 DMA 模式。请检查驱动器的 DMA 状态。（hdparm 命令）

如果不是这样，其他东西可能会产生大量中断。有人还记得那些来自古老 DOS 时代的中断吗？

EC2 实例上的 Ubuntu 12.04 中 I/O 等待导致负载过高

答案1

答案2

答案3

答案4

相关内容