deduplication

使用 fdupes 比较两个目录

是否可以使用比较两个目录（和）fdupes的内容，识别中存在的文件，并从中删除那些重复的文件？dir1dir2dir2dir1dir2 或者，由于目录相对较小并且可以移动到单个父目录中（例如dir_parent/dir1和dir_parent/dir2），有没有办法保证中的文件dir_parent/dir1被标识为“第一个”副本并且中的文件dir_parent/dir2被标识为“第二个”副本？如果我错过了该问题的先前版本，请随意将此版本标记为“重复”：-D ...

Admin 2024-12-8

deduplication

在功能有限的 Linux（NAS 盒）中，如何查找重复文件，然后删除重复文件并将硬链接替换为一个文件？

我有一个运行某个 Linux 版本的 NAS 盒，我用它来备份所有内容。基本上可以肯定有些文件是完全相同的重复文件。既然如此，我想做的是：识别重复文件，其中“重复”= 相同的 SHA256 校验和。（相同的 SHA512 也可以接受，但可能需要更长时间。您建议哪种？）允许其中一个副本作为“主”副本，删除所有其他副本，并将硬链接替换为剩余副本。这应该会在 NAS 卷上释放大量空间。请注意，找到的第一个文件是“主”文件的不错选择，所有其他文件都可以删除并硬链接到它。权限和所有权不是问题，因为只有一个用户，而且（不要在这里讨厌我），无论如何，权限都是...

Admin 2024-12-6

deduplication

有没有办法在 dupeguru 中选择重复文件的第一个实例？

dupeguru 帮助我找到了重复文件，但它只允许我删除第二个重复文件（如屏幕截图所示）。我想知道有没有办法删除第一个重复文件？ ...

Admin 2024-11-28

deduplication

我可以控制 jdupes 使用硬链接时保留哪些文件吗？

jdupes 重复数据删除程序允许您创建硬链接，这样文件不会被删除，而是链接在一起，以便磁盘空间仅使用一次即可进行多次复制。有没有办法控制保留哪些重复文件？通常这无关紧要，但使用卷或文件系统快照时，用指向新副本的链接替换快照中的文件只会在删除快照时释放空间。将快照中的文件链接到新副本（尚未在任何快照中）将释放空间。 ...

Admin 2024-11-28

deduplication

如何使用 Notepad++ 删除每行的重复文本？

我想使用 Notepad++ 删除每行中重复的单词。例子： Flooring Services, Carpet, Flooring Services, Tile, Flooring Services 上文中，Flooring Services 重复了 3 次。我只想保留一 (1) 个 Flooring Services。我查看了这个页面，它对于单个单词来说很好，但对于两个单词来说就不行：如何使用 Notepad++ 删除每一行的所有重复的单词？ ...

Admin 2024-11-22

deduplication

与另一个 CSV 文件相比，删除 CSV 文件中的重复行

我有一个名为 CSV1 的 CSV 文件，其中包含 5000 多行和 3 列 - 姓氏、名字和电子邮件地址。我还有另一个名为 CSV2 的文件，其中包含大约 2700 行和相同的 3 列。我必须从 CSV1 中删除 CSV2 中的条目。我该怎么做？请帮忙：) ...

Admin 2024-11-21

deduplication

ZFS 重复数据删除表未分页到 RAM

我有一个池，其中有 3.41 TB 的数据，根据输出判断，卷上启用了重复数据删除 zpool status -D <pool_name> ... dedup: DDT entries 73665285, size 696B on disk, 154B in core ... 我看到 RAM 中只存储了 10 GB 的 DDT，如果我加载更多数据，块数将增加，字节数将减少。据我所知，DDT 存储在 ARC 的元数据中，输出时arc_meta_used，我只看到大约 8GB，这是元数据数量的限制（zfs_arc_meta_limit_percent...

Admin 2024-11-16

deduplication

删除但“记住”（以便稍后恢复）视频/图像序列中的重复帧？

我正在对动画内容进行放大（通过 ChaiNNer），其中许多帧（通常为 25-50%）是重复的，浪费了大量的 GPU 时间；我一直试图在放大之前删除重复项，但当放大的帧重新编码时，视频播放就好像它们仍然存在一样。我尝试使用 FFMPEG 的 mpdecimate 过滤器，但当视频被提取为 png 时，它似乎会恢复重复的帧（以允许升级）本质上，我想在升级完成后/编码最终视频时删除重复的预升级内容并恢复它们（尽管基于升级后的帧而不是原始帧）；或者，如果我可以从 mpdecimated 视频中获取帧时序信息并将其应用于升级的最终编码，我相信它会达到同样的目的。...

Admin 2024-11-13

deduplication

btrfs fi du：几组共享范围

我在 btrfs 文件系统的各个目录中有很多文件。它们都是相同的，有些可能是使用“旧式”完整副本创建的，有些是克隆的（cp --reflink）。我想知道是否有任何非克隆的。在某些情况下，可能会有旧式副本的克隆，请参见cp下面的示例。在这种情况下，的输出btrfs fi du毫无帮助：所有文件都0.00B在列中Exclusive，并且列中有一些内容Set shared。但不一定一共享集。所以我无法btrfs fi du区分它们。我该怎么做？我认为这还不够详细，难以理解（但我想先提出这个问题），所以这里有一个更详细的例子。假设我有两对文件；每对文件...

Admin 2024-11-6

deduplication

如何在大小相同时覆盖所有文件，并在大小不同时重命名所有文件（精确重复）？

我正在使用 Teracopy，但 Windows 也没有此功能。相反，它要求我仅当文件不同时才替换文件，或者如果名称相同则跳过它。我想做相反的事情。我需要重命名具有相同名称的不同文件，并且仅当文件与完全重复的文件相同时才覆盖。我在不同的文件夹中有大约 2000 万个文件，我想合并所有文件夹并在此过程中删除所有重复项。我不想Overwrite All丢失具有相同名称的不同文件。绝对不想这样，因为许多文件具有相同的名称，但文件不同。我不想丢失任何更新或更改。我也不想这样做Skip All，它会忽略同名的文件，即使它们是同一个文件，这就是重点 - 删除它们...

Admin 2024-11-4

deduplication

我可以找到在不同位置具有相同路径的重复文件吗？

我有两个文件夹/目录：C:\MyData和C:\MyDataBackup以及拥有这两个文件夹/目录的人，并且不记得他们是否编辑过原始文件或备份中的文件。我想摆脱C:\MyDataBackup，所以我必须找到其中所有与中的兄弟文件相同的文件C:\MyData并删除它们，然后让所有者手动处理剩余的少数文件。我该如何实现？到目前为止，我使用的重复检测工具通常存在以下缺点... ...搜索重复项里面 C:\MyData以及C:\MyDataBackup。这是不允许的！这些文件必须不是删除，因为它们是故意的。而且由于数据堆巨大的，这会导致搜索速度减慢数周。 .....

Admin 2024-10-31

deduplication

在 bash 中，如何在特定目录中找到给定文件的所有副本？

假设我们有一个文件/a_long_path_1/foo.doc，大小为 12345 字节，我们想递归地查找目录/a_long_path_2和/a_long_path_3及其所有子目录中此文件的所有副本。副本名称的主要部分可能与不同foo（尽管扩展名.doc可能保持不变），创建/修改日期可能不同，但foo其副本中的内容应该相同。如果我发出find /a_long_path_2 /a_long_path_3 -size 12345c -iname \*.doc，我得到的列表太大，无法通过手动检查diff。需要自动化。可能使自动化变得困难的其他信息：此find...

Admin 2024-10-30

deduplication

如何在 Bash 中查找来自不同基本文件夹的重复文件？

我知道fdupes，它可以从我提供的各个目录中找到重复的文件： fdupes -r <directoryA> <directoryB> <...> 但这似乎是“把所有文件都扔进同一个篮子”，所以如果我提供两个目录，/aaa例如/bbb，它不仅找到在/aaa 和 /bbb，但也重复之内 /aaa，并重复之内 /bbb。有什么方法可以查找重复项之间两个目录，但不在同一个基目录中？我最常用的用例是aaa包含少量文件和bbb成千上万个文件，并且我希望能够丢弃aaa所有文件。因此，搜索重复项之内bbb完全是浪费精力/时间。 ...

Admin 2024-10-23

deduplication

使用 Bash 删除特定目录中的重复文件，并将其保留在另一个目录中

我在这里看到了一些关于在各种情况下删除重复文件的问题，但我找不到任何与我想要完成的内容相关的内容。我最接近看到的答案是在这里删除重复文件，仅保留最新文件但我尝试修改，但得到了一个错误的替换错误 f=(${(f)files}) 可能是因为我运行的是 bash shell 而不是 zsh shell。我有多个基于日期的目录。每个目录内都有许多子目录和文件。其中一些文件是重复的，它们可能位于同一个子目录中，也可能位于不同的子目录中。例如 backup /2022-09-01 /photos image_a.jpg im...

Admin 2024-10-21

deduplication

文件重复数据删除和过滤

我不得不在其中一个驱动器上运行 TestDisk 文件恢复软件。结果发现有 16,000 多个文件，这些文件的名称基本上都是字母数字字符串。其中许多文件包含重复或无关紧要的内容，可以直接删除。我可以使用 Visual Studio Code 在文件内运行批量关键字搜索，并且效果很好，但如果不手动定位每个文件，我就无法从搜索结果中删除/或移动文件。如何使用 Windows 10 或其他软件筛选文件并批量删除具有重复内容和特定关键字的文件？ ...

Admin 2024-10-19