如何将 pdf 文件的图像转换为文本？

Question

首先安装包含 Pdfimages 的 poppler-utils。Pdfimages 是一个工具命令行，允许从 PDF 文件中提取所有图像并将其保存为 JPEG 文件。

Ctrl按+ Alt+打开终端T

安装软件：

sudo apt-get update
sudo apt-get install poppler-utils

该工具的语法是：

pdfimages -j file.pdf output_directory

file.pdf您要提取图像的文件在哪里以及output_directory您要保存图像的目录在哪里。

图像保存格式如下：

output_directory/output_directory-nnn.jpg

这很有趣，但是它们的名字与您解压的目录的名称、连续的数字和扩展名相同。

其次，只需安装一个ocr应用程序，例如ocrfeeder：

sudo apt-get update
sudo apt-get install tesseract-ocr ocrfeeder tesseract-ocr-eng gocr cuneiform ocropusocrad

程序打开后，选择要使用的搜索引擎。选择编辑菜单并选择优先从下拉菜单中。

在打开的对话框中选择工具选项卡。在这里，您将看到一个选项，用于放置最喜欢的引擎。在此选项中，选择立方体然后按下OK按钮。

完成设置后我们就可以开始操作了

为此，我们按下+符号：

然后选择要打开的图像文件。

如果需要修饰图像，只需访问工具菜单即可。进入工具菜单选择选项未纸化. 显示屏将显示各种选项和过滤器来修饰图像。

Answer 1