分割一个 60GB 的平面文件，记录偶尔跨越多行

Question 1

仅用于sed连接分割线

sed ':a
/".*"$/b
N;s/\n/ /;ba' input >> output

在我的系统上处理一个 10 MB 的文件需要 6 秒。对于 60 GB，这将是 10 小时。

bbe有点快

bbe -b '/"/:/"/' -o output -e 'y/\n/ /' input

但仍然需要 4 秒。

恐怕这些脚本语言不是在极大文件上表现良好的工具。写一个小程序怎么样C？

Answer

仅用于sed连接分割线

sed ':a
/".*"$/b
N;s/\n/ /;ba' input >> output

在我的系统上处理一个 10 MB 的文件需要 6 秒。对于 60 GB，这将是 10 小时。

bbe有点快

bbe -b '/"/:/"/' -o output -e 'y/\n/ /' input

但仍然需要 4 秒。

恐怕这些脚本语言不是在极大文件上表现良好的工具。写一个小程序怎么样C？

Question 2

使用示例gawk：

awk 'BEGIN {RS = "\"\n"} {++n; print $0"\""> n".txt"}' input

input这表示按照任意顺序分割文件，"后跟换行符 ( \n)。这将忽略不立即跟在引号后面的换行符，从而保留多行记录。在此示例中，输出写入文本文件，但如果删除该> n".txt"部分，则可以将记录发送到管道。

Answer

使用示例gawk：

awk 'BEGIN {RS = "\"\n"} {++n; print $0"\""> n".txt"}' input

input这表示按照任意顺序分割文件，"后跟换行符 ( \n)。这将忽略不立即跟在引号后面的换行符，从而保留多行记录。在此示例中，输出写入文本文件，但如果删除该> n".txt"部分，则可以将记录发送到管道。

Question 3

Perl由于for使用循环来读取文件，因此您的速度很慢。您确实应该使用while循环，因为for循环一次性将整个文件加载到内存中。这就是为什么打印 $count 需要很长时间的原因。

perl -ne '
   print,next if /^".*"$/m or /"$/m;
   chomp, $_ .= <>, redo unless eof;
' gene.data

Answer

Perl由于for使用循环来读取文件，因此您的速度很慢。您确实应该使用while循环，因为for循环一次性将整个文件加载到内存中。这就是为什么打印 $count 需要很长时间的原因。

perl -ne '
   print,next if /^".*"$/m or /"$/m;
   chomp, $_ .= <>, redo unless eof;
' gene.data

相关内容