我正在寻找一种将 PDF 图像转换为真实文本文件的方法。
我尝试过使用 Okular、GSCAN2PDF、GIMP、ImageMagick 和 XPDF,但都遇到了问题,可能是因为我对它们没有太多经验,而且我很难理解我找到的说明。我希望得到初学者级别的解释。
答案1
首先安装包含 Pdfimages 的 poppler-utils。Pdfimages 是一个工具命令行,允许从 PDF 文件中提取所有图像并将其保存为 JPEG 文件。
Ctrl按+ Alt+打开终端T
安装软件:
sudo apt-get update
sudo apt-get install poppler-utils
该工具的语法是:
pdfimages -j file.pdf output_directory
file.pdf
您要提取图像的文件在哪里以及output_directory
您要保存图像的目录在哪里。
图像保存格式如下:
output_directory/output_directory-nnn.jpg
这很有趣,但是它们的名字与您解压的目录的名称、连续的数字和扩展名相同。
其次,只需安装一个ocr应用程序,例如ocrfeeder:
sudo apt-get update
sudo apt-get install tesseract-ocr ocrfeeder tesseract-ocr-eng gocr cuneiform ocropusocrad
程序打开后,选择要使用的搜索引擎。选择编辑菜单并选择优先从下拉菜单中。
在打开的对话框中选择工具选项卡。在这里,您将看到一个选项,用于放置最喜欢的引擎。在此选项中,选择立方体然后按下OK按钮。
完成设置后我们就可以开始操作了
为此,我们按下+符号:
然后选择要打开的图像文件。
如果需要修饰图像,只需访问工具菜单即可。进入工具菜单选择选项未纸化. 显示屏将显示各种选项和过滤器来修饰图像。