根据第一列内容中的重复项对文件中的重复项进行排序

根据第一列内容中的重复项对文件中的重复项进行排序

我有一个名为“my_file”的文件,其中包含 md5 哈希值和文件路径名。我希望能够识别第一列中包含的一个重复(不是 sort -u)哈希值;同时在下一列中显示相关文件路径。

例如:从这个# cat my_file

在此处输入图片描述

注意:哈希值或校验和表示我有很高的概率识别出同一个文件

任何帮助,将不胜感激

答案1

我假设您只想获取一条重复的记录,而不需要其余没有重复的记录:

awk -F, 'a[$1]++{print $1}' my_file

例子:

$ cat shasums 
804951ce256f190e77baba24f29b6b1890b3e9df  ./bell.wav
793e3a485bd29d1e5a87493fa566624d4742f215  ./output.sh
b35bd58dd07d7e3375dea1aee4c5e73e470a928b  ./package-lock.json
804951ce256f190e77baba24f29b6b1890b3e9df  ./bell.wav
b35bd58dd07d7e3375dea1aee4c5e73e470a928b  ./package-lock.json
b35bd58dd07d7e3375dea1aee4c5e73e470a928b  ./package-lock.json1
d1847e16de5717f9a35eab98f974c20a867019eb  ./shasums

$ awk -F, 'a[$1]++{print $1}' shasums 
804951ce256f190e77baba24f29b6b1890b3e9df  ./bell.wav
b35bd58dd07d7e3375dea1aee4c5e73e470a928b  ./package-lock.json

相关内容