从 11GB 单词列表文本文件中删除特定行和重复项

Question 1

用于pv进步。您不需要临时文件，因为您只是删除文本。只需覆盖该文件即可。如果文件已经排序，则不需要sort -u，只需uniq.

pv file | {
  uniq | grep -v '^077'
  perl -e 'truncate STDOUT, tell STDOUT'
} 1<> file

grepperl 行是在完成写入时截断文件。

请注意，由于您是就地写入文件，因此如果犯了错误，您将无法返回。

Answer

用于pv进步。您不需要临时文件，因为您只是删除文本。只需覆盖该文件即可。如果文件已经排序，则不需要sort -u，只需uniq.

pv file | {
  uniq | grep -v '^077'
  perl -e 'truncate STDOUT, tell STDOUT'
} 1<> file

grepperl 行是在完成写入时截断文件。

请注意，由于您是就地写入文件，因此如果犯了错误，您将无法返回。

Question 2

我不确定您是否可以在不显着增加 sed/awk/shell 脚本复杂性的情况下显示预计到达时间或任何进度（并因此减慢整个过程）。如果你只是想让它尽可能快，就试试吧cat source_file | uniq | sed -n -e '/^077/!p' > dest_file。为了获得进度显示的近似值，您可能希望通过dest_file在后台或另一个终端中运行该命令来观察该命令的大小不断增长。

Answer

我不确定您是否可以在不显着增加 sed/awk/shell 脚本复杂性的情况下显示预计到达时间或任何进度（并因此减慢整个过程）。如果你只是想让它尽可能快，就试试吧cat source_file | uniq | sed -n -e '/^077/!p' > dest_file。为了获得进度显示的近似值，您可能希望通过dest_file在后台或另一个终端中运行该命令来观察该命令的大小不断增长。

Question 3

awk '!a[$0]++' "filename" > /tmp/dup
mv -f /tmp/dup "filename"

Answer

awk '!a[$0]++' "filename" > /tmp/dup
mv -f /tmp/dup "filename"

从 11GB 单词列表文本文件中删除特定行和重复项

答案1

答案2

答案3

相关内容