自动将 PDF 转换为盲读格式

自动将 PDF 转换为盲读格式

我有一个盲人朋友,我有一个 PDF 想要给他阅读。

PDF 大约有 200 页设计精美的文本(其中有一些图片和图形包含文本,但这些很少见,可以通过手动清理来发现)。不幸的是,PDF 的逻辑结构表现得很糟糕:PDF 不知道其两列文本流,索引和目录条目实际上都不是链接。

我可以轻松访问 Linux 机器,也可以稍微不那么容易地访问 Windows XP 机器,并且我知道如何利用正则表达式和脚本语言来实现自动化后期处理。

到目前为止,我已经找到了一种将 PDF 垂直切成两半的方法(使用来自http://snipplr.com/view/18924/split-crop-double-page-pdfs-in-two/,将 PDF 转换为 PDF1.4 后,使其不包含 crossrefstream 或任何其他名称),这样大多数内容的顺序都是正确的,然后使用pdftohtml一些标记来提取文本。不幸的是,这无法重现文档的逻辑结构(它可以识别一些斜体标记,但已经丢失了所有章节、部分和小节标题,这些标题始终使用一致的字体大小和颜色突出显示,更不用说段落分隔符等了。)

我曾寄予厚望口径但是该转换工具也无法处理标记错误的双列 pdf,也无法从使用的字体中获取结构,尽管它在保持段落连贯方面具有一些优势。

如何将我的 PDF 转换为适合盲人访问的格式?

相关内容