比较目录中的所有文本文件,并按相似度排序

比较目录中的所有文本文件,并按相似度排序

在 Unix 中,有没有办法将目录中的每个文本文件与目录中的每个其他文本文件进行比较,然后按相似性对每对文件进行排序(使用实用程序diff)?已经有一些命令行 Unix 程序(例如 fdupes)可以在目录中查找重复文件,但我想知道是否也可以使用 shell 脚本查找类似文件。

答案1

我认为这个问题在很多层面上都太宽泛了。术语“差异”取决于数据类型及其容器:txt、mp3、avi、jpg。对于它们中的每一个,您都需要执行它们自己的处理方法。例如,文本或源代码文件可能只需要diff实用程序。音乐、视频和图像文件需要模糊逻辑和计算机学习算法。

相关内容