自动将 PDF 转换为盲读格式

2024-6-17 • tag-icon

我有一个盲人朋友，我有一个 PDF 想要给他阅读。

PDF 大约有 200 页设计精美的文本（其中有一些图片和图形包含文本，但这些很少见，可以通过手动清理来发现）。不幸的是，PDF 的逻辑结构表现得很糟糕：PDF 不知道其两列文本流，索引和目录条目实际上都不是链接。

我可以轻松访问 Linux 机器，也可以稍微不那么容易地访问 Windows XP 机器，并且我知道如何利用正则表达式和脚本语言来实现自动化后期处理。

到目前为止，我已经找到了一种将 PDF 垂直切成两半的方法（使用来自http://snipplr.com/view/18924/split-crop-double-page-pdfs-in-two/，将 PDF 转换为 PDF1.4 后，使其不包含 crossrefstream 或任何其他名称），这样大多数内容的顺序都是正确的，然后使用pdftohtml一些标记来提取文本。不幸的是，这无法重现文档的逻辑结构（它可以识别一些斜体标记，但已经丢失了所有章节、部分和小节标题，这些标题始终使用一致的字体大小和颜色突出显示，更不用说段落分隔符等了。）

我曾寄予厚望口径但是该转换工具也无法处理标记错误的双列 pdf，也无法从使用的字体中获取结构，尽管它在保持段落连贯方面具有一些优势。

如何将我的 PDF 转换为适合盲人访问的格式？

相关内容