Ext4 的使用和性能

Question 1

听起来你正在运行 SSD，当它们装满时，性能可能会出现一些奇怪的特征。当使用率下降到 6/1 左右时，性能并没有恢复正常，这一事实证实了这一理论。

背后的原因相当复杂，但基本上可以归结为需要先清空已写入但当前未使用的闪存块，然后才能再次写入。看起来您正在进行非常繁重的写入，因此驱动器中运行的清空过程没有机会在一次性写入所有已清空的块后保持足够的供应。

不同型号的驱动器具有不同的控制器，并且可以使用不同数量的“备用”闪存块，而较大的驱动器显然在用完新位之前有更多的块要写入，因此几乎可以肯定，升级到更大的驱动器至少可以暂时“解决”您的问题。“企业”级驱动器在这方面往往表现更好，但较新的闪存控制器型号也是如此，因此，在没有可靠的第三方测试特定驱动器型号的情况下，使用模式与您自己的类似，这有点像掷骰子。

你也可以继续使用你现在的驱动器一段时间，如果你挥动类似的东西fstrim告诉驱动器“你绝对可以立即擦除所有这些块现在“，尽管在需要同时做其他事情的系统上执行此操作可能不会那么顺利（您需要注意fstrim手册页中的性能警告）。

至于您是否需要更多节点，我不能肯定地说，但我认为不需要。CPU 看起来没有失控，而且我怀疑您是否会在其他地方使 I/O 系统饱和。

Answer

听起来你正在运行 SSD，当它们装满时，性能可能会出现一些奇怪的特征。当使用率下降到 6/1 左右时，性能并没有恢复正常，这一事实证实了这一理论。

背后的原因相当复杂，但基本上可以归结为需要先清空已写入但当前未使用的闪存块，然后才能再次写入。看起来您正在进行非常繁重的写入，因此驱动器中运行的清空过程没有机会在一次性写入所有已清空的块后保持足够的供应。

不同型号的驱动器具有不同的控制器，并且可以使用不同数量的“备用”闪存块，而较大的驱动器显然在用完新位之前有更多的块要写入，因此几乎可以肯定，升级到更大的驱动器至少可以暂时“解决”您的问题。“企业”级驱动器在这方面往往表现更好，但较新的闪存控制器型号也是如此，因此，在没有可靠的第三方测试特定驱动器型号的情况下，使用模式与您自己的类似，这有点像掷骰子。

你也可以继续使用你现在的驱动器一段时间，如果你挥动类似的东西fstrim告诉驱动器“你绝对可以立即擦除所有这些块现在“，尽管在需要同时做其他事情的系统上执行此操作可能不会那么顺利（您需要注意fstrim手册页中的性能警告）。

至于您是否需要更多节点，我不能肯定地说，但我认为不需要。CPU 看起来没有失控，而且我怀疑您是否会在其他地方使 I/O 系统饱和。

Question 2

从性能角度来看，Ext3/4 的利用率会超过 80-85%，这是众所周知的问题。这是由于碎片增加和写回性能降低造成的。

您能否提供两种iostat -k -x 60 3输出，一种是容量低于 80% 时，另一种是容量高于 80% 时？

编辑：从您的看来e2freefrag，似乎有足够的可用空间。您可以添加和/dev/vda3的输出吗？dfdf -i

无论如何，iostat结合您的图表（尤其是“磁盘 IOPS”），您的结果非常有趣。看来您的工作负载非常以写入为中心；当总发出 IOPS 的 95% 以上是写入时，您没有问题。但是，当您的性能下降时，您的磁盘开始提供一致的读取 IOPS。这种混合的读取/写入会破坏磁盘将多个较小的写入合并为较大的写入的能力（读取通常是阻塞操作），从而导致性能大大降低。

例如，让我们看看显示的第一个结果iostat：当总磁盘 IOPS 由写入主导时（如在这种情况下），和avgqu-sz都await非常低。

但是在第二次和第三次中，iostat我们看到更多的读取，这些读取是阻塞/停顿操作（参见列rrqm/s：它显示 0，因此在您的情况下无法合并任何读取），会破坏延迟（await）和吞吐量（KB/s）。

当主机用完 inode 缓存时，我见过类似的行为，这可能是由于存储的小文件数量太多造成的。要调整系统以优先使用 inode/dentry 缓存而牺牲数据缓存，请尝试发出echo 10 > /proc/sys/vm/vfs_cache_pressure并等待几分钟：这会改变什么吗？

Answer