如何将多幅图像中的文本提取到一个文本文件中?

如何将多幅图像中的文本提取到一个文本文件中?

我已经安装了所有东西,我使用在线工具将 PDF 文件翻录为 JPG,问题是该工具将 PDF 的每一页都放入单独的图像中,现在有 500 张左右。有没有办法只选择一个文件夹,让 tesseract 将所有图像的所有文本放入一个文本或 word 文件中?

据我了解,PDF 不能与 tesseract 一起使用,最简单的方法是将 PDF 转换为 JPEG,或者有更好的解决方法?

我在 Windows PC 上使用 Tesseract

答案1

这取决于 PDF 是如何组合在一起的。如果它包含文本层,harrymc 的答案是您的最佳选择,但如果 PDF 仅包含图像文件,则提取图像并使用 OCR 应用程序(如 tesseract)是您唯一的选择。

开源(免费)软件为您提供的资源比任何预先打包的解决方案都要多。唯一的问题是,它们是命令行工具,需要您投入大量的个人学习和实践才能开始意识到它们的好处。没有“用户友好”的应用程序可以满足您的需求。如果您有兴趣学习解决这个问题的命令行方法,那么至少要从 pdftotext、pdfimages 和支持 tesseract 的图像处理系统(如 imagemagic)开始

答案2

我建议使用 PDF 查看器将原始 PDF 转换为文本。

例如, 福祉PDF阅读器 可以打开 PDF。您可以使用菜单文件 > 另存为并以“TXT文件(*.txt)”格式保存。结果会比OCR更精确(没有扫描错误)。

相关内容