有时人类会犯错误或故意使文本难以阅读。
例如,
1 Queen Live At Hammersmith Odeon 1975 FULL GREAT SOUND.mp4
2 Queen Live at Hammersmith Odeon 1979 FULL CLEAN SOUND.mp4
3 QUEEN The Legendary Concert (Full Concert 1975).mp4
首先,1 和 3 是相同的(只有女王迷知道并且可能无法找到机器的区别;考虑到终结者来自未来)。现在我想将一些新文件放入此列表中。
1 Queen Live At Hammersmith Odeon 1975 FULL GREAT SOUND.mp4
2 Queen Live at Hammersmith Odeon 1979 FULL CLEAN SOUND.mp4
3 QUEEN The Legendary Concert (Full Concert 1975).mp4
4 Queen Live At The Rainbow 1974 FULL CLEAN SOUND 2013 Complet.mp4
5 Queen Live att Hammersmith Odean 1975 FULL GREAT SOUND.mp4
6 Quëen Live At H4mm3rsm1th Odeon 1975 FULL GREAT SOUND.mp4
我意识到只有 #4 是新的,而 #5 和 #6 是完全相同的,#5 看起来像是我喝醉或太累时的样子,而 #6 是一种特殊的回顾性反搜索引擎模型。对于人类来说,#1、(#3) #5 和 #6 是重复的文件(音乐会)。
我们可以编写一个 shell 脚本来告诉关键字与文件匹配 N% 吗?
当我使用关键字时,queen live hammersmith odeon 1975
它应该建议 #1、#2、#5 和 #6。