将文本文件拆分为具有固定字数的行

Question 1

使用xargs（17秒）：

xargs -n1000 <file >output

它使用定义最大参数数量的-n标志。xargs只需更改1000为500或任何您想要的限制即可。

我制作了一个包含 10^7 个单词的测试文件：

$ wc -w file
10000000 file

以下是时间统计：

$ time xargs -n1000 <file >output
real    0m16.677s
user    0m1.084s
sys     0m0.744s

Answer

使用xargs（17秒）：

xargs -n1000 <file >output

它使用定义最大参数数量的-n标志。xargs只需更改1000为500或任何您想要的限制即可。

我制作了一个包含 10^7 个单词的测试文件：

$ wc -w file
10000000 file

以下是时间统计：

$ time xargs -n1000 <file >output
real    0m16.677s
user    0m1.084s
sys     0m0.744s

Question 2

Perl 似乎在这方面非常擅长：

创建一个包含 10,000,000 个空格分隔单词的文件

for ((i=1; i<=10000000; i++)); do printf "%s " $RANDOM ; done > one.line

现在，perl 在每 1,000 个单词后添加一个换行符

time perl -pe '
    s{ 
        (?:\S+\s+){999} \S+   # 1000 words
        \K                    # then reset start of match
        \s+                   # and the next bit of whitespace
    }
    {\n}gx                    # replace whitespace with newline
' one.line > many.line

定时

real    0m1.074s
user    0m0.996s
sys     0m0.076s

验证结果

$ wc one.line many.line
        0  10000000  56608931 one.line
    10000  10000000  56608931 many.line
    10000  20000000 113217862 total

接受的 awk 解决方案在我的输入文件上花费了 5 秒多一点的时间。

Answer