为什么重复的文件有不同的校验和?

为什么重复的文件有不同的校验和?

我正在尝试从包含 Outlook 存档的 .PST 文件的单个文件夹中删除数百个重复的 .PST 文件。我尝试了几个重复文件删除应用程序,它们依靠校验和来确定等效性,但结果相同:明显重复的文件具有不同的校验和。我一直认为,仅仅标题不同不应该改变校验和。是什么导致了不同的校验和?

.PST 目录中的文件子集显示重复项:

12/15/2021  09:01 AM        96,011,264 11_SonyArchiveFolderBackup Repaired (2).pst
12/15/2021  09:01 AM        96,011,264 11_SonyArchiveFolderBackup Repaired.pst
12/15/2021  09:01 AM       111,756,288 11_SonyArchiveFolderBackup.pst
12/15/2021  09:01 AM           271,360 12-4_Inbox - Copy (2).pst
12/15/2021  09:01 AM           271,360 12-4_Inbox - Copy (3).pst
12/15/2021  09:01 AM           271,360 12-4_Inbox.pst
12/15/2021  09:02 AM        21,857,280 12_SonyPersonalFolderBackup (10).pst
12/15/2021  09:02 AM        21,857,280 12_SonyPersonalFolderBackup (11).pst
12/15/2021  09:02 AM        21,857,280 12_SonyPersonalFolderBackup (12).pst
12/15/2021  09:02 AM        21,857,280 12_SonyPersonalFolderBackup (13).pst
12/15/2021  09:02 AM        21,857,280 12_SonyPersonalFolderBackup (14).pst
12/15/2021  09:02 AM        21,857,280 12_SonyPersonalFolderBackup (2).pst
12/15/2021  09:02 AM        21,857,280 12_SonyPersonalFolderBackup (3).pst
12/15/2021  09:02 AM        21,857,280 12_SonyPersonalFolderBackup (4).pst
12/15/2021  09:02 AM        21,857,280 12_SonyPersonalFolderBackup (5).pst
12/15/2021  09:02 AM        21,857,280 12_SonyPersonalFolderBackup (6).pst
12/15/2021  09:02 AM        21,857,280 12_SonyPersonalFolderBackup (7).pst
12/15/2021  09:02 AM        21,857,280 12_SonyPersonalFolderBackup (8).pst
12/15/2021  09:02 AM        21,857,280 12_SonyPersonalFolderBackup (9).pst
12/15/2021  09:02 AM        21,857,280 12_SonyPersonalFolderBackup - Copy (2).pst
12/15/2021  09:02 AM        21,857,280 12_SonyPersonalFolderBackup - Copy (3).pst
12/15/2021  09:02 AM        15,508,480 12_SonyPersonalFolderBackup Repaired (2).pst
12/15/2021  09:02 AM        15,508,480 12_SonyPersonalFolderBackup Repaired.pst
12/15/2021  09:02 AM        21,857,280 12_SonyPersonalFolderBackup.pst
12/15/2021  09:02 AM           525,312 13-6_Inbox - Copy (2).pst
12/15/2021  09:02 AM           525,312 13-6_Inbox - Copy (3).pst
12/15/2021  09:02 AM           525,312 13-6_Inbox.pst
12/15/2021  09:03 AM       145,785,856 13_DellEmailBackup (2).pst
12/15/2021  09:03 AM       145,785,856 13_DellEmailBackup (3).pst
12/15/2021  09:03 AM       145,785,856 13_DellEmailBackup (4).pst
12/15/2021  09:04 AM       145,785,856 13_DellEmailBackup (5).pst
12/15/2021  09:04 AM       145,785,856 13_DellEmailBackup - Copy (194117045).pst

在我看来,标题为“SonyPersonalFolderBackup (*).pst”的档案显然是原始档案的副本。请注意,字节数相等。

我还不被允许发布对每个文件的不同校验和的确认,但是,相信我,它们是不同的。

为什么会这样?除了基于名称的重复删除策略外,哪种重复删除策略可以帮助我删除它们?

谢谢

答案1

明显重复的文件具有不同的校验和。

如果它们的校验和不同,则显然不是重复。

它可能是不同的文件有相同的校验和(事实上,由于校验和的数量是有限的,但可能的文件数量是无限的,因此必须是无数个不同的文件具有相同的校验和,但完全相同的文件不可能有不同的校验和。

什么原因导致校验和不同?

校验和不同的原因是文件不同,而不是重复。

在我看来,标题为“SonyPersonalFolderBackup (*).pst”的档案显然是原始档案的副本。请注意,字节数相等。

包含该字符串的文件hello与包含该字符串的文件的字节数bybye也相等,但显然两者并不相同。

为什么会这样?除了基于名称的重复删除策略外,哪种重复删除策略可以帮助我删除它们?

首先,您需要定义“重复”的含义。显然,您对“重复”的定义与您使用的工具的定义不同(该工具可能使用“重复”的定义表示“相同”)。由于您认为文件是显然不相同的重复文件,因此您需要定义什么你认为是重复的。

如果不知道您认为什么是“重复”,那么您也无法定义一个知道这一点的命令。

答案2

很简单 - 它们不再相等。它们可能曾经相等,但后来发生了变化。这看起来很奇怪,除非你考虑扩展名 - 这些是 Outlook 邮件文件。

每当 Outlook 打开 .pst 文件时,它都会将时间戳和其他内容写入其中!

您可以通过复制 PST 并进行比较来轻松测试这一点 - 它们是相等的。现在使用 Outlook 打开其中一个(或两个),然后关闭它们 - 它们不再相等。

这是 Microsoft Outlook 的一个非常烦人的行为,也是您无法使用 Outlook 打开任何受写保护的 PST 文件的原因 - 它坚持为它们添加时间戳,即使它们受写保护,它也不会显示内容。进一步的后果是,如果您有自动备份,所有 PST 文件都会被视为不断“更改”,并导致每天无意义地重新备份许多 MB 或 GB。正是出于这个原因,Microsoft OneDrive 不允许同步 PST 文件。

答案3

eol 问题也可能是罪魁祸首。如果您处理的是 jpg 或 mp3 等二进制文件,即使文件名不同,这也不应该成为问题。但任何类型的文本文件或源代码文件都可能以 crlf 或 lf 作为行尾。制表符可能已被空格替换。任何这些差异都会导致不同的校验和。

答案4

所以...问题的解决方案源于收集多个备份文件..完全相同的副本...进入一个公共目录,从而在每个副本后附加一个“(*)”...使文件名不同,并改变校验和。

谢谢。

相关内容