deduplication

使用 fdupes 比较两个目录
deduplication

使用 fdupes 比较两个目录

是否可以使用比较两个目录(和)fdupes的内容,识别中存在的文件,并从中删除那些重复的文件?dir1dir2dir2dir1dir2 或者,由于目录相对较小并且可以移动到单个父目录中(例如dir_parent/dir1和dir_parent/dir2),有没有办法保证中的文件dir_parent/dir1被标识为“第一个”副本并且中的文件dir_parent/dir2被标识为“第二个”副本? 如果我错过了该问题的先前版本,请随意将此版本标记为“重复”:-D ...

Admin

在功能有限的 Linux(NAS 盒)中,如何查找重复文件,然后删除重复文件并将硬链接替换为一个文件?
deduplication

在功能有限的 Linux(NAS 盒)中,如何查找重复文件,然后删除重复文件并将硬链接替换为一个文件?

我有一个运行某个 Linux 版本的 NAS 盒,我用它来备份所有内容。 基本上可以肯定有些文件是完全相同的重复文件。 既然如此,我想做的是: 识别重复文件,其中“重复”= 相同的 SHA256 校验和。(相同的 SHA512 也可以接受,但可能需要更长时间。您建议哪种?) 允许其中一个副本作为“主”副本,删除所有其他副本,并将硬链接替换为剩余副本。这应该会在 NAS 卷上释放大量空间。 请注意,找到的第一个文件是“主”文件的不错选择,所有其他文件都可以删除并硬链接到它。权限和所有权不是问题,因为只有一个用户,而且(不要在这里讨厌我),无论如何,权限都是...

Admin

我可以控制 jdupes 使用硬链接时保留哪些文件吗?
deduplication

我可以控制 jdupes 使用硬链接时保留哪些文件吗?

jdupes 重复数据删除程序允许您创建硬链接,这样文件不会被删除,而是链接在一起,以便磁盘空间仅使用一次即可进行多次复制。 有没有办法控制保留哪些重复文件?通常这无关紧要,但使用卷或文件系统快照时,用指向新副本的链接替换快照中的文件只会在删除快照时释放空间。将快照中的文件链接到新副本(尚未在任何快照中)将释放空间。 ...

Admin

如何使用 Notepad++ 删除每行的重复文本?
deduplication

如何使用 Notepad++ 删除每行的重复文本?

我想使用 Notepad++ 删除每行中重复的单词。 例子: Flooring Services, Carpet, Flooring Services, Tile, Flooring Services 上文中,Flooring Services 重复了 3 次。我只想保留一 (1) 个 Flooring Services。 我查看了这个页面,它对于单个单词来说很好,但对于两个单词来说就不行: 如何使用 Notepad++ 删除每一行的所有重复的单词? ...

Admin

与另一个 CSV 文件相比,删除 CSV 文件中的重复行
deduplication

与另一个 CSV 文件相比,删除 CSV 文件中的重复行

我有一个名为 CSV1 的 CSV 文件,其中包含 5000 多行和 3 列 - 姓氏、名字和电子邮件地址。我还有另一个名为 CSV2 的文件,其中包含大约 2700 行和相同的 3 列。我必须从 CSV1 中删除 CSV2 中的条目。我该怎么做?请帮忙:) ...

Admin

ZFS 重复数据删除表未分页到 RAM
deduplication

ZFS 重复数据删除表未分页到 RAM

我有一个池,其中有 3.41 TB 的数据,根据输出判断,卷上启用了重复数据删除 zpool status -D <pool_name> ... dedup: DDT entries 73665285, size 696B on disk, 154B in core ... 我看到 RAM 中只存储了 10 GB 的 DDT,如果我加载更多数据,块数将增加,字节数将减少。据我所知,DDT 存储在 ARC 的元数据中,输出时arc_meta_used,我只看到大约 8GB,这是元数据数量的限制(zfs_arc_meta_limit_percent...

Admin

删除但“记住”(以便稍后恢复)视频/图像序列中的重复帧?
deduplication

删除但“记住”(以便稍后恢复)视频/图像序列中的重复帧?

我正在对动画内容进行放大(通过 ChaiNNer),其中许多帧(通常为 25-50%)是重复的,浪费了大量的 GPU 时间;我一直试图在放大之前删除重复项,但当放大的帧重新编码时,视频播放就好像它们仍然存在一样。 我尝试使用 FFMPEG 的 mpdecimate 过滤器,但当视频被提取为 png 时,它似乎会恢复重复的帧(以允许升级) 本质上,我想在升级完成后/编码最终视频时删除重复的预升级内容并恢复它们(尽管基于升级后的帧而不是原始帧);或者,如果我可以从 mpdecimated 视频中获取帧时序信息并将其应用于升级的最终编码,我相信它会达到同样的目的。...

Admin

btrfs fi du:几组共享范围
deduplication

btrfs fi du:几组共享范围

我在 btrfs 文件系统的各个目录中有很多文件。它们都是相同的,有些可能是使用“旧式”完整副本创建的,有些是克隆的(cp --reflink)。我想知道是否有任何非克隆的。 在某些情况下,可能会有旧式副本的克隆,请参见cp下面的示例。在这种情况下, 的输出btrfs fi du毫无帮助:所有文件都0.00B在 列中Exclusive,并且 列中有一些内容Set shared。但不一定一共享集。所以我无法btrfs fi du区分它们。我该怎么做? 我认为这还不够详细,难以理解(但我想先提出这个问题),所以这里有一个更详细的例子。假设我有两对文件;每对文件...

Admin

如何在大小相同时覆盖所有文件,并在大小不同时重命名所有文件(精确重复)?
deduplication

如何在大小相同时覆盖所有文件,并在大小不同时重命名所有文件(精确重复)?

我正在使用 Teracopy,但 Windows 也没有此功能。相反,它要求我仅当文件不同时才替换文件,或者如果名称相同则跳过它。我想做相反的事情。 我需要重命名具有相同名称的不同文件,并且仅当文件与完全重复的文件相同时才覆盖。 我在不同的文件夹中有大约 2000 万个文件,我想合并所有文件夹并在此过程中删除所有重复项。 我不想Overwrite All丢失具有相同名称的不同文件。绝对不想这样,因为许多文件具有相同的名称,但文件不同。我不想丢失任何更新或更改。 我也不想这样做Skip All,它会忽略同名的文件,即使它们是同一个文件,这就是重点 - 删除它们...

Admin

我可以找到在不同位置具有相同路径的重复文件吗?
deduplication

我可以找到在不同位置具有相同路径的重复文件吗?

我有两个文件夹/目录:C:\MyData和C:\MyDataBackup以及拥有这两个文件夹/目录的人,并且不记得他们是否编辑过原始文件或备份中的文件。 我想摆脱C:\MyDataBackup,所以我必须找到其中所有与中的兄弟文件相同的文件C:\MyData并删除它们,然后让所有者手动处理剩余的少数文件。 我该如何实现?到目前为止,我使用的重复检测工具通常存在以下缺点... ...搜索重复项里面 C:\MyData以及C:\MyDataBackup。这是不允许的!这些文件必须不是删除,因为它们是故意的。而且由于数据堆巨大的,这会导致搜索速度减慢数周。 .....

Admin

在 bash 中,如何在特定目录中找到给定文件的所有副本?
deduplication

在 bash 中,如何在特定目录中找到给定文件的所有副本?

假设我们有一个文件/a_long_path_1/foo.doc,大小为 12345 字节,我们想递归地查找目录/a_long_path_2和/a_long_path_3及其所有子目录中此文件的所有副本。副本名称的主要部分可能与不同foo(尽管扩展名.doc可能保持不变),创建/修改日期可能不同,但foo其副本中的内容应该相同。 如果我发出find /a_long_path_2 /a_long_path_3 -size 12345c -iname \*.doc,我得到的列表太大,无法通过 手动检查diff。需要自动化。可能使自动化变得困难的其他信息:此find...

Admin

如何在 Bash 中查找来自不同基本文件夹的重复文件?
deduplication

如何在 Bash 中查找来自不同基本文件夹的重复文件?

我知道fdupes,它可以从我提供的各个目录中找到重复的文件: fdupes -r <directoryA> <directoryB> <...> 但这似乎是“把所有文件都扔进同一个篮子”,所以如果我提供两个目录,/aaa例如/bbb,它不仅找到在/aaa 和 /bbb,但也重复之内 /aaa,并重复之内 /bbb。 有什么方法可以查找重复项之间两个目录,但不在同一个基目录中? 我最常用的用例是aaa包含少量文件和bbb成千上万个文件,并且我希望能够丢弃aaa所有文件。因此,搜索重复项之内bbb完全是浪费精力/时间。 ...

Admin

使用 Bash 删除特定目录中的重复文件,并将其保留在另一个目录中
deduplication

使用 Bash 删除特定目录中的重复文件,并将其保留在另一个目录中

我在这里看到了一些关于在各种情况下删除重复文件的问题,但我找不到任何与我想要完成的内容相关的内容。 我最接近看到的答案是在这里删除重复文件,仅保留最新文件但我尝试修改,但得到了一个错误的替换错误 f=(${(f)files}) 可能是因为我运行的是 bash shell 而不是 zsh shell。 我有多个基于日期的目录。每个目录内都有许多子目录和文件。其中一些文件是重复的,它们可能位于同一个子目录中,也可能位于不同的子目录中。 例如 backup /2022-09-01 /photos image_a.jpg im...

Admin

文件重复数据删除和过滤
deduplication

文件重复数据删除和过滤

我不得不在其中一个驱动器上运行 TestDisk 文件恢复软件。结果发现有 16,000 多个文件,这些文件的名称基本上都是字母数字字符串。其中许多文件包含重复或无关紧要的内容,可以直接删除。 我可以使用 Visual Studio Code 在文件内运行批量关键字搜索,并且效果很好,但如果不手动定位每个文件,我就无法从搜索结果中删除/或移动文件。 如何使用 Windows 10 或其他软件筛选文件并批量删除具有重复内容和特定关键字的文件? ...

Admin