如何将多幅图像中的文本提取到一个文本文件中？

Question 1

这取决于 PDF 是如何组合在一起的。如果它包含文本层，harrymc 的答案是您的最佳选择，但如果 PDF 仅包含图像文件，则提取图像并使用 OCR 应用程序（如 tesseract）是您唯一的选择。

开源（免费）软件为您提供的资源比任何预先打包的解决方案都要多。唯一的问题是，它们是命令行工具，需要您投入大量的个人学习和实践才能开始意识到它们的好处。没有“用户友好”的应用程序可以满足您的需求。如果您有兴趣学习解决这个问题的命令行方法，那么至少要从 pdftotext、pdfimages 和支持 tesseract 的图像处理系统（如 imagemagic）开始

Answer

这取决于 PDF 是如何组合在一起的。如果它包含文本层，harrymc 的答案是您的最佳选择，但如果 PDF 仅包含图像文件，则提取图像并使用 OCR 应用程序（如 tesseract）是您唯一的选择。

开源（免费）软件为您提供的资源比任何预先打包的解决方案都要多。唯一的问题是，它们是命令行工具，需要您投入大量的个人学习和实践才能开始意识到它们的好处。没有“用户友好”的应用程序可以满足您的需求。如果您有兴趣学习解决这个问题的命令行方法，那么至少要从 pdftotext、pdfimages 和支持 tesseract 的图像处理系统（如 imagemagic）开始

Question 2

我建议使用 PDF 查看器将原始 PDF 转换为文本。

例如，福祉PDF阅读器可以打开 PDF。您可以使用菜单文件 > 另存为并以“TXT文件（*.txt）”格式保存。结果会比OCR更精确（没有扫描错误）。

Answer

我建议使用 PDF 查看器将原始 PDF 转换为文本。

例如，福祉PDF阅读器可以打开 PDF。您可以使用菜单文件 > 另存为并以“TXT文件（*.txt）”格式保存。结果会比OCR更精确（没有扫描错误）。

如何将多幅图像中的文本提取到一个文本文件中？

答案1

答案2

相关内容