我的 pdf 转换问题

Question

PDF 可能不是首先采用正确的格式...

从技术上讲，“PDF 文本”是带有页码和坐标的字符/单词片段/单词的集合。例如，没有空格，但只有“单词片段之间的空间，可能是空格、列跳过、表格跳过或只是字距调整”。文本片段的顺序可能符合阅读顺序，也可能不符合（...由 PDF 创建者自行决定），因为它对于在屏幕上显示或打印无关紧要！

为了缓解这种情况，一些（但不是全部：全部取决于创建者） PDF 文件将同时包含“显示文本”和“按阅读顺序排列的文本”。希望与屏幕上显示的文本相同（不保证！）。

任何从 PDF 中提取文本的软件都必须这样做很多解释。看看本文作为一个开始。

Answer 1

PDF 可能不是首先采用正确的格式...

从技术上讲，“PDF 文本”是带有页码和坐标的字符/单词片段/单词的集合。例如，没有空格，但只有“单词片段之间的空间，可能是空格、列跳过、表格跳过或只是字距调整”。文本片段的顺序可能符合阅读顺序，也可能不符合（...由 PDF 创建者自行决定），因为它对于在屏幕上显示或打印无关紧要！

为了缓解这种情况，一些（但不是全部：全部取决于创建者） PDF 文件将同时包含“显示文本”和“按阅读顺序排列的文本”。希望与屏幕上显示的文本相同（不保证！）。

任何从 PDF 中提取文本的软件都必须这样做很多解释。看看本文作为一个开始。

相关内容