查找重复文件的最有效方法是什么？

Question 1

FS林特它的后端findup可能正是您所需要的：

FSlint 扫描文件并过滤掉不同大小的文件。然后检查任何大小完全相同的剩余文件，以确保它们不是硬链接。如果用户选择“合并”结果，则可能会在先前的搜索中创建硬链接文件。一旦 FSlint 确定文件不是硬链接，它就会使用 md5sum 检查文件的各种签名。为了防止 md5sum 冲突，FSlint 将使用 sha1sum 检查重新检查任何剩余文件的签名。

https://booki.flossmanuals.net/fslint/ch004_duplicates.html

Answer

FS林特它的后端findup可能正是您所需要的：

FSlint 扫描文件并过滤掉不同大小的文件。然后检查任何大小完全相同的剩余文件，以确保它们不是硬链接。如果用户选择“合并”结果，则可能会在先前的搜索中创建硬链接文件。一旦 FSlint 确定文件不是硬链接，它就会使用 md5sum 检查文件的各种签名。为了防止 md5sum 冲突，FSlint 将使用 sha1sum 检查重新检查任何剩余文件的签名。

https://booki.flossmanuals.net/fslint/ch004_duplicates.html

Question 2

林特是一个非常有效的工具，可以对文件系统进行重复数据删除等操作，如果需要，可以通过 xattrs 缓存信息以使后续运行速度更快，并提供 json 格式的元数据，以便您以自定义方式使用它挖掘出的信息：

rmlint finds space waste and other broken things on your filesystem and offers to remove it. It is able to find:

Duplicate files & directories.
Nonstripped Binaries
Broken symlinks.
Empty files.
Recursive empty directories.
Files with broken user or group id.

来自用户手册 — rmlint

Answer

林特是一个非常有效的工具，可以对文件系统进行重复数据删除等操作，如果需要，可以通过 xattrs 缓存信息以使后续运行速度更快，并提供 json 格式的元数据，以便您以自定义方式使用它挖掘出的信息：

rmlint finds space waste and other broken things on your filesystem and offers to remove it. It is able to find:

Duplicate files & directories.
Nonstripped Binaries
Broken symlinks.
Empty files.
Recursive empty directories.
Files with broken user or group id.

来自用户手册 — rmlint

Question 3

是的，如果大小与另一个文件匹配，我认为它将创建完整的 md5。这可能会造成浪费。对于大文件，一种更有效的方法可能是对第一个块进行 md5，并且仅在它们匹配时才进一步查找。

即检查大小，如果匹配则检查第一个块的 md5 (512k)，如果匹配则检查接下来 2 个块的 md5 (1024k) ...等等。

Answer

是的，如果大小与另一个文件匹配，我认为它将创建完整的 md5。这可能会造成浪费。对于大文件，一种更有效的方法可能是对第一个块进行 md5，并且仅在它们匹配时才进一步查找。

即检查大小，如果匹配则检查第一个块的 md5 (512k)，如果匹配则检查接下来 2 个块的 md5 (1024k) ...等等。

查找重复文件的最有效方法是什么？

答案1

答案2

答案3

相关内容