ZFS - 为什么压缩文件显示的磁盘使用量几乎是表观大小的两倍？

Question

在由 12 个具有 4K 扇区（共 12 个）的磁盘组成的 vdev 上条带化 8K 记录ashift是一个糟糕的主意，并且会导致大量的开销：

来自 OpenZFS：

https://openzfs.github.io/openzfs-docs/基本概念/RAIDZ.html

由于这些输入，如果记录大小小于或等于扇区大小，则 RAIDZ 的奇偶校验大小将有效地等于具有相同冗余的镜像。例如，对于 3 个磁盘的 raidz1，ashift=12 且recordsize=4K，我们将在磁盘上分配：

1个4K数据块

1 个 4K 填充块

可用空间率为50%，与双镜相同。

另一个示例，对于 3 个磁盘的 raidz1，ashift=12 且记录大小=128K：

总条纹宽度为 3

由于有 1 个奇偶校验块，一个条带最多可以有 2 个 4K 大小的数据部分

我们将有 128K/2 = 64 个条带，每个条带有 8K 数据和 4K 奇偶校验

因此本例中的可用空间率为 66%。

RAIDZ的磁盘越多，条带越宽，空间效率就越高。

该文本后面是一个图表，如果截屏并内嵌在此处，该图表将难以辨认，但它显示，对于 1 倍或 2 倍扇区大小的记录大小，在 RAIDZ2 下，开销将为 67%。

根据图表，这种情况下的解决方案是增加到recordsize256K，这在 12 磁盘 RAIDZ2 vdev 上的奇偶校验+填充成本为 18%。（recordsize相比之下，128K会产生 24% 的开销）。

但事情没那么简单。对于“经典”文件系统来说，最初选择 8Krecordsize可能是正确的，就像recordsize最大限度块大小，不是固定的块大小。然而，对于较大recordsize且相对较小的文件仍然存在惩罚。

增加recordsize只会影响更改后创建的数据，但在这种情况下，池仅消耗 6% 的空间，当前压缩率为 1.4 倍。现有数据可以保留在原位，而不会造成任何长期容量问题。然而，在需要回收开销的情况下：

https://openzfs.github.io/openzfs-docs/性能和调优/工作负载调优.html

如果您更改记录大小，因为您的应用程序应该使用不同的记录大小来执行更好的操作，则您将需要重新创建其文件。每个文件上的 cp 后跟 mv 就足够了。或者，当完整接收完成时，send/recv 应重新创建具有正确记录大小的文件。

来自对相关池的真实实验：

# zfs set recordsize=256K pool02/redactedStorage

# dd if=/dev/zero of=testfile256.40M.zeroes bs=1M count=40
# du -h testfile256.40M.zeroes
512B    testfile256.40M.zeroes

# dd if=/dev/random of=testfile256.40M.rnd bs=1M count=40
# du -h testfile256.40M.rnd
 40M    testfile256.40M.rnd

# dd if=/dev/random of=testfile256.8K.rnd bs=8192 count=1
# du -h testfile256.8K.rnd
 37K    testfile256.8K.rnd

如您所见，40M 文件正在使用逻辑空间量。但是一个8K的文件就消耗了37K的空间！

因此recordsize应该根据数据集的内容进行调整。

当然，看起来128K默认值recordsize是最佳的，我只是不应该碰它。

# zfs set recordsize=128K pool02/redactedStorage
# cp testfile256.40M.rnd testfile128.40M.rnd
# du -h testfile128.40M.rnd
512B    testfile128.40M.rnd
# mv testfile128.40M.rnd testfile128.40M.rnd2
# du -h testfile128.40M.rnd2
 40M    testfile128.40M.rnd2

# cp testfile256.8K.rnd testfile128.8K.rnd
# mv testfile128.8K.rnd testfile128.8K.rnd2
# du -h testfile128.8K.rnd2
 19K    testfile128.8K.rnd2

这确实显示 8K 测试文件使用 19K 磁盘空间，但是存在必要的元数据开销。看着不可压缩现有文件大小 <=8K，所有文件在原始文件下recordsize=8K也显示 19K 的磁盘使用量。我进一步尝试recordsize=64K，它对这些示例文件的大小没有影响。

另请注意，cp后面的mv确实是在 new 下创建文件实例所必需的recordsize。

这篇文章还对正在发生的事情进行了很好的描述，我将把这些描述供后代使用：

https://klarasystems.com/articles/choosing-the-right-zfs-pool-layout/

填充、磁盘扇区大小和记录大小设置：在 RAID-Z 中，奇偶校验信息与每个块相关联，而不是像 RAID-5 中那样与特定条带相关联，因此每个数据分配必须是 p+1（奇偶校验+1）的倍数，以避免释放的段太小被重复使用。如果分配的数据不是 p+1 的倍数，则使用“填充”，这就是 RAID-Z 需要比 RAID-5 多一点的奇偶校验和填充空间的原因。这是一个复杂的问题，但简而言之：为了避免空间效率低下，您必须保持 ZFS 记录大小远大于磁盘扇区大小；您可以对 512 字节扇区磁盘使用 Recordsize=4K 或 8K，但如果您使用 4K 扇区磁盘，则 Recordsize 应是该值的几倍（默认 128K 即可），否则最终可能会丢失太多空间。

Answer 1