很多时候,当我进行常规文档备份(覆盖前一个文档)时,我发现即使我在新文档中添加了大量文本(并且没有更改现有文本的格式),但它可能比旧文档小。
有时,在我向某个文档中添加大约 3 千个单词后,其大小与同一文档的先前版本相比会减少 15kb(不减小现有图像大小或编辑格式)。
造成这种情况的原因是什么?
答案1
现代的 word 文件格式是 zip 容器内的一组 xml 文件(继续,将文件重命名.docx
为,.zip
然后您就可以在您最喜欢的 zip 程序中打开该文件)。
如果您添加到文件中的文本压缩效果良好,例如它包含大量重复的文本模式,或者原始文档使用的是旧版本的标准,而没有使用积极的 zip 设置,则文件大小最终可能会由于文件的后续压缩方式而减小。
答案2
没有人真正了解 Word 的文件格式,甚至连 Microsoft 也不了解,甚至那些对其进行了逆向工程的人也不了解。Word 有一个标准,但据说是无用的。
有一件事是众所周知的,那就是现代版本是一堆压缩文件。因此,下次 zip 算法可能会做得更好。
另一种选择是,它可能会进行某种垃圾收集:删除不再需要的东西。(众所周知,人们从 Word 文档中提取了已删除的文本,这常常使作者感到尴尬。)