PDF 转 XML 当然可以,但是反过来呢?

PDF 转 XML 当然可以,但是反过来呢?

这是我的第一篇帖子,如果我违反了任何惯例,请原谅。

嗯,事实上,我正在 Ubuntu 环境中开发一个长期存档系统。出于各种原因,XML 是一种非常强大的长期存档格式,目前市场上有许多系统提供 XML 格式的导出功能。

XML 格式本身不包含任何图形信息,例如 PDF 文件的外观,只包含曾经包含的书面信息和嵌入的图片。

因此,假设我有一个特定的 PDF 文件,就可以将其剥离为 XML,然后再次将其重建为原来的 PDF 文件 - 至少在理论上是这样。

在 Linux 中,您可以借助 XSLTPROC 和 FOP 通过两步从 CLI 完成此操作。

  1. xsltproc 文件.xsl 文件.xml > 文件.fo
  2. fop文件.fo文件.pdf

这里绝对关键的文件 - 如果您想按照原来的方式重建它 - 是 XSL 文件。

我发现数百篇文章讨论如何手动创建 XSL 文件,但没有一篇涉及任何可以分析 PDF 文件的 XSL 结构的软件。

我只是认为,如果可以从 XML-XSL-FO-PDF 进行转换,那么反向执行此过程也一定可行?有人有什么想法吗?

保罗

答案1

PDF 不存储或使用 XSLT 信息 - 它们是一种完全不同的标记语言格式,没有像 XML/XSL 那样的格式和内容之间的严格划分。

您没有找到任何将 PDF 转换为 XML/XSL 的自动方法的原因是,这在很大程度上取决于所使用的特定文件和格式,因此几乎不可能编写真正有效的通用方法。

最好的办法是使用类似以下方法从 PDF 文件中提取文本内容文本然后编写自定义脚本,从与原始文件匹配的文件中构建 XML 文件。这本质上是一种一次性解决方案,而且相当脆弱,容易损坏。

A更好的解决方案就是仅存档 PDF。

相关内容