我正在想象比这更深的东西pdf转文本(部分poppler 工具),因为我想象的是可能的,将保留虚拟页面上的大部分布局,例如通过寻呼机进行管道传输,例如最多,然后甚至可能获得简单图形等的基于符号的替换。
您常用的命令链或脚本将会非常有趣。
我在问题中添加了“常见”一词,以避免提出需要太多意见的问题,这违背了 Stack Exchange 的精神。
这里的一个重要优先事项是该解决方案是否完全便携,例如甚至可以在 Mac 上的单用户模式下使用。
答案1
pdftotext
确实有一个-layout
选项:
-layout
Maintain (as best as possible) the original physical
layout of the text. The default is to ´undo' physical
layout (columns, hyphenation, etc.) and output the text
in reading order.
但它不做图形。