我下载了大量维基百科的 PDF 文件,并将它们整理成个性化图书馆,以供离线阅读和思考,而且我还制作了一个搜索引擎,它可以积累标签,就像这个网站对问题的处理方式一样。
问题是,我编写的编程 IDE 无法导入人类可读格式的 pdf 文件,我需要将所有 pdf 文件转换为 csv 或 txt 才能使我的搜索应用程序正常工作。
谁能解释一下如何pdf 到 txt 转换的过程是怎样的?
我刚刚读到这篇文章,另一个人也表达了类似的感受 挫折。
答案1
PDF 可能不是首先采用正确的格式...
从技术上讲,“PDF 文本”是带有页码和坐标的字符/单词片段/单词的集合。例如,没有空格,但只有“单词片段之间的空间,可能是空格、列跳过、表格跳过或只是字距调整”。文本片段的顺序可能符合阅读顺序,也可能不符合(...由 PDF 创建者自行决定),因为它对于在屏幕上显示或打印无关紧要!
为了缓解这种情况,一些(但不是全部:全部取决于创建者) PDF 文件将同时包含“显示文本”和“按阅读顺序排列的文本”。希望与屏幕上显示的文本相同(不保证!)。
任何从 PDF 中提取文本的软件都必须这样做很多解释。看看本文作为一个开始。