快速消除多个文件中的重复行

Question 1

我不确定我是否理解你的问题，但你的代码可以优化为：

awk '!x{a[$0];next}; !($0 in a)' foo/file x=1 bar/file > tmp

（我认为你的空行或解析为“0”的行有问题）

如果文件已排序，您可以执行以下操作：

comm -13 foo/file bar/file > tmp

如果不是（ksh93.zsh 或 bash 语法）：

comm -13  <(sort foo/file) <(sort bar/file) > tmp

（不一定比 awk 解决方案更快）

另外，特别是对于 GNU awk，您可以通过将语言环境设置为 C/POSIX 来获得更好的性能：

LC_ALL=C awk ...

Answer

我不确定我是否理解你的问题，但你的代码可以优化为：

awk '!x{a[$0];next}; !($0 in a)' foo/file x=1 bar/file > tmp

（我认为你的空行或解析为“0”的行有问题）

如果文件已排序，您可以执行以下操作：

comm -13 foo/file bar/file > tmp

如果不是（ksh93.zsh 或 bash 语法）：

comm -13  <(sort foo/file) <(sort bar/file) > tmp

（不一定比 awk 解决方案更快）

另外，特别是对于 GNU awk，您可以通过将语言环境设置为 C/POSIX 来获得更好的性能：

LC_ALL=C awk ...

Question 2

我有多个文件，每个文件的大小只有几个 MB，我已经尝试过这个对我有用：

sort *.csv | uniq -d

这将为您提供文件中的重复记录，然后您可以将输出重定向到单个文件以获取重复记录，删除-d将为您提供所有唯一记录。

Answer

我有多个文件，每个文件的大小只有几个 MB，我已经尝试过这个对我有用：

sort *.csv | uniq -d

这将为您提供文件中的重复记录，然后您可以将输出重定向到单个文件以获取重复记录，删除-d将为您提供所有唯一记录。

相关内容