如何将重复的自由格式字符串写入文件，速度与“dd”一样快？

Question 1

$ time perl -e \
    '$count=1024*1024; while ($count>0) { print "x" x 384; $count--; }' > out
real    0m1.284s
user    0m0.316s
sys 0m0.961s
$ ls -lh out
-rw-r--r-- 1 me group 384M Apr 16 19:47 out

"x" x 384将（生成 384 的字符串）替换x为您喜欢的任何内容。

您可以通过在每个循环中使用更大的字符串并绕过正常的标准输出缓冲来进一步优化这一点。

$ perl -e \
   '$count=384; while ($count>0) {
      syswrite(STDOUT, "x" x (1024*1024),  1024*1024);
      $count--;
    }' > out

在这种情况下，syswrite调用一次将 1M 传递给底层write系统调用，这变得非常好。（我用这个得到了大约 0.940 秒的用户。）

提示：确保sync在每个测试之间进行调用，以避免前一次运行的刷新干扰当前运行的 I/O。

作为参考，我这次得到：

$ time dd if=/dev/zero bs=1024 count=$((1024*384)) of=./out
393216+0 records in
393216+0 records out
402653184 bytes (403 MB) copied, 1.41404 s, 285 MB/s

real    0m1.480s
user    0m0.054s
sys 0m1.410s

Answer

$ time perl -e \
    '$count=1024*1024; while ($count>0) { print "x" x 384; $count--; }' > out
real    0m1.284s
user    0m0.316s
sys 0m0.961s
$ ls -lh out
-rw-r--r-- 1 me group 384M Apr 16 19:47 out

"x" x 384将（生成 384 的字符串）替换x为您喜欢的任何内容。

您可以通过在每个循环中使用更大的字符串并绕过正常的标准输出缓冲来进一步优化这一点。

$ perl -e \
   '$count=384; while ($count>0) {
      syswrite(STDOUT, "x" x (1024*1024),  1024*1024);
      $count--;
    }' > out

在这种情况下，syswrite调用一次将 1M 传递给底层write系统调用，这变得非常好。（我用这个得到了大约 0.940 秒的用户。）

提示：确保sync在每个测试之间进行调用，以避免前一次运行的刷新干扰当前运行的 I/O。

作为参考，我这次得到：

$ time dd if=/dev/zero bs=1024 count=$((1024*384)) of=./out
393216+0 records in
393216+0 records out
402653184 bytes (403 MB) copied, 1.41404 s, 285 MB/s

real    0m1.480s
user    0m0.054s
sys 0m1.410s

Question 2

人们普遍认为 shell 处理大块数据的速度很慢。对于大多数脚本，您提前知道哪些数据位可能很小，哪些数据位可能很大。

更喜欢依赖 shell 内置函数来处理小数据，因为分叉和执行外部进程会产生持续的开销。
更喜欢依赖外部的专用工具来处理大数据，因为专用编译工具比解释型通用语言更有效。

dd使用块大小的发出read和调用。write您可以使用 strace （或 truss、trace...取决于您的操作系统）观察这一点：

$ strace -s9 dd if=/dev/zero of=/dev/null ibs=1024k obs=2048k count=4
✄
read(0, "\0\0\0\0\0\0\0\0\0"..., 1048576) = 1048576
read(0, "\0\0\0\0\0\0\0\0\0"..., 1048576) = 1048576
write(1, "\0\0\0\0\0\0\0\0\0"..., 2097152) = 2097152
read(0, "\0\0\0\0\0\0\0\0\0"..., 1048576) = 1048576
read(0, "\0\0\0\0\0\0\0\0\0"..., 1048576) = 1048576
write(1, "\0\0\0\0\0\0\0\0\0"..., 2097152) = 2097152
✄

大多数其他工具的最大缓冲区大小的上限要低得多，因此它们会进行更多的系统调用，从而花费更多的时间。但请注意，这是一个不切实际的基准：如果您写入常规文件、管道或套接字，内核可能不会在每个系统调用中写入超过几千字节的数据。

Answer

人们普遍认为 shell 处理大块数据的速度很慢。对于大多数脚本，您提前知道哪些数据位可能很小，哪些数据位可能很大。

更喜欢依赖 shell 内置函数来处理小数据，因为分叉和执行外部进程会产生持续的开销。
更喜欢依赖外部的专用工具来处理大数据，因为专用编译工具比解释型通用语言更有效。

dd使用块大小的发出read和调用。write您可以使用 strace （或 truss、trace...取决于您的操作系统）观察这一点：

$ strace -s9 dd if=/dev/zero of=/dev/null ibs=1024k obs=2048k count=4
✄
read(0, "\0\0\0\0\0\0\0\0\0"..., 1048576) = 1048576
read(0, "\0\0\0\0\0\0\0\0\0"..., 1048576) = 1048576
write(1, "\0\0\0\0\0\0\0\0\0"..., 2097152) = 2097152
read(0, "\0\0\0\0\0\0\0\0\0"..., 1048576) = 1048576
read(0, "\0\0\0\0\0\0\0\0\0"..., 1048576) = 1048576
write(1, "\0\0\0\0\0\0\0\0\0"..., 2097152) = 2097152
✄

大多数其他工具的最大缓冲区大小的上限要低得多，因此它们会进行更多的系统调用，从而花费更多的时间。但请注意，这是一个不切实际的基准：如果您写入常规文件、管道或套接字，内核可能不会在每个系统调用中写入超过几千字节的数据。

Question 3

你可以用dd这个！首先将字符串写入文件的开头。然后做：

dd if=$FILE of=$FILE bs=$STRING_LENGTH seek=1 count=$REPEAT_TIMES

注意：如果你的 $STRING_LENGTH 很小，你可能会这样做

dd if=$FILE of=$FILE bs=$STRING_LENGTH seek=1 count=$((1024/$REPEAT_TIMES))
dd if=$FILE of=$FILE bs=1024 seek=1 count=$(($REPEAT_TIMES/1024))

（此示例仅在 STRING_LENGTH 是 2 的幂且 REPEAT_TIMES 是 1024 的倍数时有效，但您明白了）

如果您想使用它来覆盖文件（例如清除），请使用conv=notrunc

Answer