如何将 pdf 文件的图像转换为文本?

如何将 pdf 文件的图像转换为文本?

我正在寻找一种将 PDF 图像转换为真实文本文件的方法。

我尝试过使用 Okular、GSCAN2PDF、GIMP、ImageMagick 和 XPDF,但都遇到了问题,可能是因为我对它们没有太多经验,而且我很难理解我找到的说明。我希望得到初学者级别的解释。

答案1

首先安装包含 Pdfimages 的 poppler-utils。Pdfimages 是一个工具命令行,允许从 PDF 文件中提取所有图像并将其保存为 JPEG 文件。

Ctrl按+ Alt+打开终端T

安装软件:

sudo apt-get update
sudo apt-get install poppler-utils

该工具的语法是:

pdfimages -j file.pdf output_directory

file.pdf您要提取图像的文件在哪里以及output_directory您要保存图像的目录在哪里。

图像保存格式如下:

output_directory/output_directory-nnn.jpg

这很有趣,但是它们的名字与您解压的目录的名称、连续的数字和扩展名相同。

其次,只需安装一个ocr应用程序,例如ocrfeeder:

sudo apt-get update
sudo apt-get install tesseract-ocr ocrfeeder tesseract-ocr-eng gocr cuneiform ocropusocrad

程序打开后,选择要使用的搜索引擎。选择编辑菜单并选择优先从下拉菜单中。

在打开的对话框中选择工具选项卡。在这里,您将看到一个选项,用于放置最喜欢的引擎。在此选项中,选择立方体然后按下OK按钮。

完成设置后我们就可以开始操作了

为此,我们按下+符号:

然后选择要打开的图像文件。

如果需要修饰图像,只需访问工具菜单即可。进入工具菜单选择选项未纸化. 显示屏将显示各种选项和过滤器来修饰图像。

相关内容