样式文件可以帮助 pdftotext 使用 -layout 进行文本提取吗?

样式文件可以帮助 pdftotext 使用 -layout 进行文本提取吗?

我曾用乳胶回忆录写了一本很长的书。

我现在想将其内容输入机器翻译器,翻译成另一种语言(例如德语)。我将首先使用自动翻译,以便获得更好的人工翻译。

翻译人员不懂乳胶。有几种方法可以为他们提供信息。我可以使用一些在线乳胶解析器,自己编写一个快速解析器等。

我突然想到,我也可以让 latex 创建一个更适合pdftotext(poppler) 的 pdf。它应该在段落之间留出较大的空白,而不是跨页拆分段落等,可能还会删除表格和图片、页眉、页脚、边距和脚注。

(最终,我还需要编写一个解析匹配程序,将翻译重新集成到使用原始结构但仅替换文本的乳胶文档中。因此,我正在考虑为每个段落添加一个数字,这样我就可以获取翻译输入和输出并重建一个乳胶文件。)

有人编写了样式文件来改善 pdf 文本提取的结果吗?或者找到了更好的解决方案?

相关内容