deduplication

如何在 xml 文件中查找重复的 id 条目
deduplication

如何在 xml 文件中查找重复的 id 条目

如何快速缩小 xml 文件中重复的 id 条目数,例如: <entry id="A">... <entry id="B">... <entry id="A">... 并输出它们 id="A" dup 2 times 只是想让你知道我是一个完全的菜鸟,这意味着我甚至不知道如何运行任何代码,所以如果你有这个问题的代码,你至少可以告诉我运行它所需的软件名称,我会从那里查找它。 ...

Admin

删除重复项
deduplication

删除重复项

我有很多这样的重复项: 2017-11-22_3083_smokey_brights_-_come_to_terms.mp3 2017-12-01-Smokey_Brights_-_Come_To_Terms.mp3 我怎样才能只保留其中一个?不幸的是,它们的 md5sum 不同。 我最好的尝试是 ls *mp3 | tr '[:upper:]' '[:lower:]' | rev | sort | uniq -w 30 -d | rev 针对以 30 个或更多相同字符结尾的文件。 ...

Admin

删除电子邮件 (.eml) 重复项
deduplication

删除电子邮件 (.eml) 重复项

我有一个文件夹,里面有大约 50,000 封 .eml 格式的电子邮件。有很多重复的邮件,甚至有三封或四封,我估计总共大约有 30,000 封。我尝试使用 Mozilla Thunderbird 附加组件 Remove Duplicate Messages(替代)来删除重复邮件,但它只删除了一小部分(几百封)。然后,我使用了 Windows 桌面应用程序,例如 Wise duplicate finder、duplicate cleaner free、AllDup、Fast Duplicate finder 和 Anti-Twin,逐字节(60% 比较),但这...

Admin

检测近似重复的音频文件
deduplication

检测近似重复的音频文件

假设我有几个目录,里面有大约 4000 个音频文件,其中大约一半是 FLAC,另一半是 MP3。假设我想通过音频数据而不是标签元数据来检测是否有任何重复或近似重复的音频文件。例如,假设我有同一首歌曲的 FLAC(无损)和 MP3(有损)版本。在不对文件名、标签元数据甚至采样率做任何假设的情况下,我希望找到某种方法来检测它们是否本质上是同一首曲子。 我想到了很多办法,但它们都存在一些问题: 无法比较文件哈希值或文件大小,因为底层音频格式或标签可能不同 无法比较音频文件的长度,因为近似重复的音频文件可能不会持...

Admin

如何通过调用另一个脚本/实用程序/程序批量删除重复项
deduplication

如何通过调用另一个脚本/实用程序/程序批量删除重复项

我正在寻找一种通过批处理文件删除重复图片的方法,但是在询问堆栈溢出后,发现如果不使用外部实用程序或软件是不可行的。 所以我在这里问,什么软件、实用程序或脚本可以删除重复的图片(只保留其中一张)并可以在批处理文件中调用? ...

Admin

如何安全地合并 Google Drive 上的重复文件夹,然后删除空的文件夹并同步保留的文件夹?
deduplication

如何安全地合并 Google Drive 上的重复文件夹,然后删除空的文件夹并同步保留的文件夹?

我正在重新安装系统,并且粗心地将文件夹复制到我用于 Google Drive 的文件夹中,并同时开始同步。 这导致我的文件被拆分为多个重复文件夹,例如folder变成folder和folder (2)。我以为我只需将 的内容复制folder (2)到 中folder,然后删除即可合并文件夹folder (2)。然而,这样做的结果是 和folder都不folder (2)存在于我的在线 Google Drive 中,尽管folder存在于一台计算机上的 Google Drive 文件夹中。此外,如果我转到选择性同步,它folder甚至不会显示为可同步。如果我...

Admin

根据使用一个字段的表达式对表进行重复数据删除
deduplication

根据使用一个字段的表达式对表进行重复数据删除

Mariadb: mysql Ver 15.1 Distrib 10.3.8-MariaDB 我有一个表,它是其他几个表的查询的联合。这个表看起来像- +-------------+--------------+------+-----+---------+----------------+ | Field | Type | Null | Key | Default | Extra | +-------------+--------------+------+-----+---------+-------...

Admin

合并具有重复关键字但其他列中有唯一值的 Excel 行
deduplication

合并具有重复关键字但其他列中有唯一值的 Excel 行

我有一张 Excel 表,其中 B 列中有关键字。每一行在 E 列和 CR 列之间的某个单元格中都会有一个值。 因此,第 3 行将在 B 列中有一个关键字,在 AQ 列中有一个值。 第 4 行可能在 B 列中有相同的关键字,而在 CK 列中有不同的值 给定关键字的每个实例都会在 E 和 CR 之间具有一个且仅有一个值,其余单元格将为空白。 我需要一种方法将每个关键字的所有实例与来自 E-CR 的所有不同值组合成一行。 也就是说,使用上面的例子,我希望第 3 行在 AQ 和 CK 中都有值。然后我会删除第 4 行。 我有几张这样的工作表,每张大约有...

Admin

多个条件唯一值和列表
deduplication

多个条件唯一值和列表

我有两个问题需要寻求帮助。 第一个是创建一个动态列表,其中包含与 列中的“Horse”匹配的项目J、与列Sheet 2!中的“Ball”匹配的项目,并且 列中不包含单词 dog。在下面的示例中,这将返回 ID 号 48 和 56ISheet 2!ASheet 2! 第二,虽然我已经计算了符合这一标准 (3) 的资产数量,但使用 =COUNTIFS(Sheet2!$A:$A, "<>*Dog*", Sheet2!$J:$J, "Horse", Sheet2!$I:$I, "Ball") 我还想计算唯一条目的数量,在提供的示例中为 2, ...

Admin

通过管道进行就地增量写入
deduplication

通过管道进行就地增量写入

我正在寻找一种方法来仅覆盖文件中与应该写入的内容不同的部分,以便以尽可能少的磁盘写入量来更改文件。 我的计划是在将 NTFS 分区备份到映像文件时进行一些重复数据删除,方法是将该映像文件作为 BTRFS 上先前备份映像的重新链接副本。 (将其视为无需更改原始文件即可写入的硬链接) 我通过管道将 NTFS 分区中未使用的部分填充为零partclone,因此输入是管道而不是设备。 可以将其视为 cat /dev/sda4 | command -i - -o newbackup.img command我要找的是哪个newbackup.img文件,该文件已经...

Admin

用于对具有特定后缀的文件和文件夹进行重复数据删除的脚本
deduplication

用于对具有特定后缀的文件和文件夹进行重复数据删除的脚本

拙劣的 OneDrive 恢复导致我留下了许多带有“ (1)”或“ (2)”后缀的文件和文件夹。 我想要一个脚本(Bash 就很好,因为我有 MinGW + Cygwin,或者 PowerShell),它可以解析给定文件夹(例如“d:\OneDrive”或“/cygdrive/d/OneDrive”)内的所有文件和文件夹,并且对于每个文件或文件夹,查看是否有一个或多个文件/文件夹(在同一个子文件夹中)的文件/文件夹名称与正则表达式“\1\s*\(\d+\)\.\2”匹配,其中“\1”是没有扩展名的原始文件/文件夹名称,\2 是原始扩展名。然后,脚本应该将原...

Admin

如何合并具有“名称 (1)”、“名称 (1) (1)”等结构的重复文件夹
deduplication

如何合并具有“名称 (1)”、“名称 (1) (1)”等结构的重复文件夹

在我的 Google Filestream、Google Drive 和 Synology CloudSync 之间同步时,一切都变得混乱了,我留下了数百个重复的文件夹,文件夹名称后跟“(1)”或“(2)”等,一直到“(1) (1) (1)”。 您知道可以合并这些文件夹的程序或脚本吗? 顶级文件夹结构示例: 1100 Beetledwarf - Happy ATE 1100 Beetledwarf - Happy ATE (1) 1100 Beetledwarf - Happy ATE (2) 1100 Beetledwarf - Happy ATE ...

Admin

有没有办法用 rsync 或其他 Linux 工具备份重复数据删除的 NTFS 驱动器?
deduplication

有没有办法用 rsync 或其他 Linux 工具备份重复数据删除的 NTFS 驱动器?

有没有一种 Linux 方法或工具可以识别 NTFS 上的 Windows 重复数据删除?在这里,我使用 rsync 从 AD 文件服务器共享同步文件。使用 Linux 上的 mount.cifs 以只读方式安装共享。 由于 Linux 不知道重复数据删除的文件,因此它会同步所有副本。 我在 Windows Server 2012 R2 中启用了重复数据删除服务,因为在 2TB 驱动器中,我只有 190GB 可用空间。在激活重复数据删除后(大约一周后),我的可用空间变为 860GB 共享位于 AD 环境中,来自不同房间/部门的各种用户存储数据。他们习惯...

Admin

删除目录 B 中也存在于目录 A 中的文件
deduplication

删除目录 B 中也存在于目录 A 中的文件

这一页已经说明了如何删除目录 B 中也存在于目录 A 中的文件。 我想使用 Windows 解决方案,但不进行复制。 有人能告诉我如何编辑 FOR 行以进行比较然后删除吗?谢谢。 ...

Admin

rsync 仅替换具有硬链接的匹配文件
deduplication

rsync 仅替换具有硬链接的匹配文件

如何将 中dst/与内容完全匹配的文件替换为来自src/这些(src/*)文件的硬链接的文件? 有--hard-links一个选项rsync,我想使用它,但我不想触碰已更改的文件,只是为了尽量减少浪费的磁盘空间。使用 可以实现吗rsync? 我的意思是,那rsync是在非模式下使用--recursive,但在--non-inc-recursive模式下,对内容进行全局比较。 ...

Admin