如何在 pdf 文件中搜索文本

如何在 pdf 文件中搜索文本

我正在运行 ubuntu 22.0.4

如何在 PDF 文件中搜索文本?

我尝试过 evince,但它找不到文本。我尝试过 okular,但它找不到文本。我尝试过 pdfgrep,但它找不到文本。

答案1

如果所有这些工具都找不到该文本,则该文本就不存在。

请注意,PDF 可能仅包含页面的图形。图形代表您可以阅读的页面,但它不是文件中包含的实际文本。相反,PDF 文件包含页面的图像。在这种情况下,PDF 程序或其他工具都找不到文本,因为实际的文本字符不存在。

此类 PDF 文件通常由扫描软件创建。扫描仪会创建页面的数字图像。由于文件中包含的是图形而非文本,因此无法找到文本。

此类文件可通过光学字符识别进行搜索。通过该过程,图形上的文本将转换为真实文本,该文本也存储在文件中,使其可搜索。当查找文本时,软件会在添加的真实文本中进行搜索,而用户则看到该文本的图形表示。

质量最好的 PDF 包含实际文本(用于使用专用字体在屏幕上呈现文本)和图像(用于表示文本中的图像)。这些通常由应用程序软件创建,例如,将 Writer 文字处理文件导出为 PDF 时。这些文件呈现的质量非常好,同时比使用扫描软件创建的 PDF 文件小得多。

相关内容