复制稀疏文件的最快方法是什么?哪种方法可以生成最小的文件?

复制稀疏文件的最快方法是什么?哪种方法可以生成最小的文件?

背景:我正在复制一个稀疏的 qcow2 VM 映像,该映像大小为 200GB,但分配了 16GB 的块。我尝试了多种方法在同一台服务器内复制此稀疏文件,并取得了一些初步成果。环境是 RHEL 6.6 或 CentOS 6.6 x64。

ls -lhs srcFile 
16G -rw-r--r-- 1 qemu qemu 201G Feb  4 11:50 srcFile

通过 cp - 最佳速度

cp --sparse=always srcFile dstFile
Performance Notes:
    Copied 200GB max/16GB actual VM as 200GB max/26GB actual, bloat: 10GB
    Copy time: 1:02 (mm:ss) 

Via dd - 最佳整体表现者

dd if=srcFile of=dstFile iflag=direct oflag=direct bs=4M conv=sparse
Performance Notes:
    Copied 200GB max/16GB actual VM as 200GB max/21GB actual, bloat: 5GB
    Copy time: 2:02 (mm:ss)

通过 cpio

mkdir tmp$$
echo srcFile | cpio -p --sparse tmp$$; mv tmp$$/srcFile dstFile
rmdir tmp$$
Performance Notes:
    Copied 200GB max/16GB actual VM as 200GB max/26GB actual, bloat: 10GB
    Copy time: 9:26 (mm:ss)

通过 rsync

rsync --ignore-existing -aS srcFile dstFile
Performance Notes:
    Copied 200GB max/16GB actual VM as 200GB max/26GB actual, bloat: 10GB
    Copy time: 24:49 (mm:ss)

通过 virt-sparsify - 最佳尺寸

virt-sparsify srcFile dstFile
    Copied 200GB max/16GB actual VM as 200GB max/16GB actual, bloat: 0
    Copy time: 17:37 (mm:ss)

改变区块大小

我担心 dd 复制期间的“膨胀”(文件大小比原始文件大),所以我改变了块大小。我使用“时间”来获取总时间和 CPU%。在这种情况下,原始文件是一个 7.3GB 的稀疏 200GB 文件:

4K:   5:54.64, 56%, 7.3GB
8K:   3:43.25, 58%, 7.3GB
16K:  2:23.20, 59%, 7.3GB
32K:  1:49.25, 62%, 7.3GB
64K:  1:33.62, 64%, 7.3GB
128K: 1:40.83, 55%, 7.4GB
256K: 1:22.73, 64%, 7.5GB
512K: 1:44.84, 74%, 7.6GB
1M:   1:16.59, 70%, 7.9GB
2M:   1:21.58, 66%, 8.4GB
4M:   1:17.52, 69%, 9.5GB
8M:   1:10.92, 76%, 12GB
16M:  1:17.09, 78%, 16GB
32M:  2:54.10, 90%, 22GB

问题:您能否确认我已找到复制稀疏文件的最佳方法以获得最佳整体性能?欢迎提出任何有关如何做得更好的建议,以及您对我使用的方法的任何疑虑。

答案1

从上述基准测试来看,考虑到复制时间和膨胀,在我们的目标硬件上使用块大小为 64K 的 dd 似乎能给我们带来最好的整体结果:

dd if=srcFile of=dstFile iflag=direct oflag=direct bs=64K conv=sparse

相关内容