统计文本文件中的重复单词

统计文本文件中的重复单词

我有一个 20 mb 的文件,里面有文本和 ID。我需要一个 grep 之类的东西来计数并显示任何重复的 ID。

答案1

awk '{print $2}' file_name | sort | uniq -c | sort -n | awk '$1>1 {print $2}' > duplicates
for x in $(< duplicates); do grep -n $x file;
done

所以如果你在第二列中有 ID,那么它将打印出重复的 ID

注意:在 file_name 中输入您的文件名。

相关内容