样式文件可以帮助 pdftotext 使用 -layout 进行文本提取吗?
我曾用乳胶回忆录写了一本很长的书。 我现在想将其内容输入机器翻译器,翻译成另一种语言(例如德语)。我将首先使用自动翻译,以便获得更好的人工翻译。 翻译人员不懂乳胶。有几种方法可以为他们提供信息。我可以使用一些在线乳胶解析器,自己编写一个快速解析器等。 我突然想到,我也可以让 latex 创建一个更适合pdftotext(poppler) 的 pdf。它应该在段落之间留出较大的空白,而不是跨页拆分段落等,可能还会删除表格和图片、页眉、页脚、边距和脚注。 (最终,我还需要编写一个解析匹配程序,将翻译重新集成到使用原始结构但仅替换文本的乳胶文档中。因此,我正在考虑...