情况:有一个很大的 pdf 文件,里面有几百篇论文(比如书籍、技术规范等)。如果没有原始来源,如何目录 (ToC)是否可以将轮廓添加到由文本组成的 PDF 文件?
有一个与此类似的问题,在扫描书籍的 PDF 文件中创建目录。但是,该问题仅限于未使用 OCR 转换的扫描书籍副本。这个问题专门针对包含文本(可能还有一些图片)的 PDF。
PDF 文件示例:
- http://www.oss.com/asn1/resources/books-whitepapers-pubs/asn1-books.html#larmouth
- http://www.acpi.info/DOWNLOADS/ACPIspec10.pdf
这些文件顶部有一个目录,肉眼可以清晰识别。这些文件中的章节和节也可以通过查看前面的标题找到。
我如何检测目录并向文档添加大纲?如果这些可以完成所述任务,也欢迎参考文件格式的文档(以及此类文档)。
(想象一下包含该包的 LaTeX 生成的 PDF 文件hyperref
。)