awk 从一个文件中读取并拆分标头，在其他文件上使用它

Question 1

不是真正的答案，但太大并且需要格式化，所以它不能成为评论，所以......

1.6M 并不是一个巨大的行数。正如你所说，你看到的每小时 100 万行是大规模地慢，每分钟 100 万行会更合理。例如，我通过运行以下脚本创建了一个 1,600,000 行长的文件，每行有 300 列：

$ awk -v n=1600000 -v c=300 -v OFS='\t' 'BEGIN{for (j=1;j<=c;j++) printf "col%s%s",j,(j<c?OFS:ORS); for (i=1;i<=n;i++) for (j=1;j<=c;j++) printf "%s%s",j,(j<c?OFS:ORS)}' > file

然后我定时运行一个脚本来对该文件的问题中进行转换：

$ time awk 'BEGIN{FS=OFS="\t"} NR==1{split($0, headers); print; next} {for (i=166;i<=NF;i++) $i=headers[i] "|" $i } 1' file > out

real    1m22.569s
user    1m17.971s
sys     0m4.359s

因此，运行时间约为 82 秒，而不是 1.5 小时。

Answer

不是真正的答案，但太大并且需要格式化，所以它不能成为评论，所以......

1.6M 并不是一个巨大的行数。正如你所说，你看到的每小时 100 万行是大规模地慢，每分钟 100 万行会更合理。例如，我通过运行以下脚本创建了一个 1,600,000 行长的文件，每行有 300 列：

$ awk -v n=1600000 -v c=300 -v OFS='\t' 'BEGIN{for (j=1;j<=c;j++) printf "col%s%s",j,(j<c?OFS:ORS); for (i=1;i<=n;i++) for (j=1;j<=c;j++) printf "%s%s",j,(j<c?OFS:ORS)}' > file

然后我定时运行一个脚本来对该文件的问题中进行转换：

$ time awk 'BEGIN{FS=OFS="\t"} NR==1{split($0, headers); print; next} {for (i=166;i<=NF;i++) $i=headers[i] "|" $i } 1' file > out

real    1m22.569s
user    1m17.971s
sys     0m4.359s

因此，运行时间约为 82 秒，而不是 1.5 小时。

Question 2

对于 GNU Parallel，它看起来有点像这样：

#!/bin/bash

do_block() {
    awk 'BEGIN{FS=OFS="\t"}
     NR==1{split($0, headers); next}
     {for (i=166;i<=NF;i++) $i=headers[i] "|" $i } 1'
}
export -f do_block

# Non-parallel version
cat file | head -n1 > out1
time cat file | do_block >> out1

# Parallel version
cat file | head -n1 > out2
time parallel -k --pipepart --block -30 -a file --header : do_block >> out2

在我的 4 核 CPU 上，并行版本的速度大约快 3 倍。

Answer

对于 GNU Parallel，它看起来有点像这样：

#!/bin/bash

do_block() {
    awk 'BEGIN{FS=OFS="\t"}
     NR==1{split($0, headers); next}
     {for (i=166;i<=NF;i++) $i=headers[i] "|" $i } 1'
}
export -f do_block

# Non-parallel version
cat file | head -n1 > out1
time cat file | do_block >> out1

# Parallel version
cat file | head -n1 > out2
time parallel -k --pipepart --block -30 -a file --header : do_block >> out2

在我的 4 核 CPU 上，并行版本的速度大约快 3 倍。

awk 从一个文件中读取并拆分标头，在其他文件上使用它

答案1

答案2

相关内容