删除多个txt文件中的重复行

Question

要删除所有重复项，但保留文件中第一个出现的重复项并从其他文件中删除，您可以按如下方式使用 awk，这也保留了行的顺序。

awk '!seen[$0]++ { print >FILENAME".new" }' file1 file2 ... file12

这里没有必要通过 awk 关闭打开的文件，因为最多有 12 个文件，但您仍然可以在每个文件处理和完成后 close() 它们。

awk '!seen[$0]++ { 
    if(prev!=FILENAME) close(prev".new");
    print >FILENAME".new";
    prev=FILENAME }
' file1 file2 ... file12

您可以使用 shell 和外部命令mv，然后将输出文件重命名为原始名称（您可以使用rename命令也是如此）：

for file in ./*.new; do echo mv -v -- "$file" "${file%.new}"; done

注意：echo如果您对结果满意，请删除。

如果您有 GNU awk，您可以使用-i inplace选项就地修改文件并简化整个命令，如下所示：

gawk -i inplace '!seen[$0]++' file1 file2 ... file12

Answer 1

要删除所有重复项，但保留文件中第一个出现的重复项并从其他文件中删除，您可以按如下方式使用 awk，这也保留了行的顺序。

awk '!seen[$0]++ { print >FILENAME".new" }' file1 file2 ... file12

这里没有必要通过 awk 关闭打开的文件，因为最多有 12 个文件，但您仍然可以在每个文件处理和完成后 close() 它们。

awk '!seen[$0]++ { 
    if(prev!=FILENAME) close(prev".new");
    print >FILENAME".new";
    prev=FILENAME }
' file1 file2 ... file12

您可以使用 shell 和外部命令mv，然后将输出文件重命名为原始名称（您可以使用rename命令也是如此）：

for file in ./*.new; do echo mv -v -- "$file" "${file%.new}"; done

注意：echo如果您对结果满意，请删除。

如果您有 GNU awk，您可以使用-i inplace选项就地修改文件并简化整个命令，如下所示：

gawk -i inplace '!seen[$0]++' file1 file2 ... file12

相关内容