枚举 PDF 文件中的段落

枚举 PDF 文件中的段落

是否有可用的程序或服务,可以接收 PDF 文件并自动枚举段落?我在 Google 上进行了一些简单的搜索,但没有找到任何可用的内容。

答案1

我认为,通过“枚举段落”,您的意思是生成一个新的 PDF 文件,其中在每个段落前插入数字,并重新格式化文本以适应这一点以及根据需要移动的任何其他对象(例如图像)并重新分页文档。

PDF 旨在作为文档的最终格式,因此它实际上并不方便对其内容的进一步操作。

尤其是,您无法保证 PDF 的内部组织包含任何段落甚至单词的概念。您甚至无法保证字符以任何正常编码进行编码 - 这使得区分标点符号和字母变得困难。

有用于读取 PDF 文件的软件库,因此原则上您可以尝试编写这样的程序。这可能适用于使用特定产品通过特定工作流程生成的 PDF。但一般来说,它可能不如将 PDF 转换为图像并对图像使用 OCR 效果好。

这种问题(“是否有一个程序可以……”)可能更适合软件推荐- 但如果存在可以立即在随机 PDF 上使用的东西,我会感到惊讶。

相关内容