我需要将一大堆 PDF 转换为其他文件格式(Doc、DocX、RTF 等),然后过一会儿再转换回 PDF。
我需要让新的 PDF 看起来尽可能的一样。
这些文件格式在转换过程中的损耗程度是否存在差异,或者这其实并不重要?哪些因素会产生影响?
答案1
PDF 是一种页面布局说明格式:它描述了文档的一般结构、字体和嵌入图像等资源、所有页面的树以及可能的其他内容。对于每个页面,它包含将某些字形放入特定位置的命令,或其他图像操作,例如放置嵌入图像。
您提到的其他三种格式(Doc,DocX,RTF)是 Microsoft 特定的“源”格式,它描述具有属性的字符序列,并且不描述(至少在原则上)这些字符在可见页面上的布局。
因此,从 PDF 到上述任何格式(以及基本上所有您可以合理编辑的格式)的转换都会有损。非常有损。
如果你在转换过程中付出足够的努力,你可能会得到一个与原始 PDF 或多或少相似的 PDF,但让它看起来一样真的很难,真的难的。
底线:PDF 不可编辑。编辑用于创建 PDF 的任何内容。如果您无法访问该内容,那就太倒霉了。您仍然可以尝试直接编辑 PDF,但这也不容易。