样式文件可以帮助 pdftotext 使用 -layout 进行文本提取吗？

2024-5-26 • tag-icon

我曾用乳胶回忆录写了一本很长的书。

我现在想将其内容输入机器翻译器，翻译成另一种语言（例如德语）。我将首先使用自动翻译，以便获得更好的人工翻译。

翻译人员不懂乳胶。有几种方法可以为他们提供信息。我可以使用一些在线乳胶解析器，自己编写一个快速解析器等。

我突然想到，我也可以让 latex 创建一个更适合pdftotext(poppler) 的 pdf。它应该在段落之间留出较大的空白，而不是跨页拆分段落等，可能还会删除表格和图片、页眉、页脚、边距和脚注。

（最终，我还需要编写一个解析匹配程序，将翻译重新集成到使用原始结构但仅替换文本的乳胶文档中。因此，我正在考虑为每个段落添加一个数字，这样我就可以获取翻译输入和输出并重建一个乳胶文件。）

有人编写了样式文件来改善 pdf 文本提取的结果吗？或者找到了更好的解决方案？

相关内容