从扫描的文档中提取文本

Question 1

此类程序的名称是光学字符识别 (OCR)（光学字符识别）。该链接还提供了几个选择：

gocr - 命令行 OCR
fuzzyocr - spamassassin 插件用于检查图像附件
libhocr0 - 希伯来语 OCR
ocrad——光学字符识别程序
ocrfeeder - 文档布局分析和光学字符识别系统
ocropus - 文档分析和 OCR 系统
tesseract-ocr
楔形文字 - 多语言 OCR 系统

这表明 Tesseract（很老的教程）是其中更好的选择。所以试试吧。

Answer

此类程序的名称是光学字符识别 (OCR)（光学字符识别）。该链接还提供了几个选择：

gocr - 命令行 OCR
fuzzyocr - spamassassin 插件用于检查图像附件
libhocr0 - 希伯来语 OCR
ocrad——光学字符识别程序
ocrfeeder - 文档布局分析和光学字符识别系统
ocropus - 文档分析和 OCR 系统
tesseract-ocr
楔形文字 - 多语言 OCR 系统

这表明 Tesseract（很老的教程）是其中更好的选择。所以试试吧。

Question 2

不久前评估了 Ubuntu 中的各种 OCR 软件包，发现 Tesseract 是其中最不糟糕的（但也够糟糕了），并为 OCRing 编写了一个包装器脚本（因为 Tesseract 需要像 TIFF 这样的模糊输入格式）。这是我的~/bin/ocr：

#!/bin/sh
# usage: ocr filename.jpg
if test -z "$1"; then
    echo "usage: ocr filename.jpg [...]"
    echo "needs imagemagick and tesseract-ocr"
    echo "if tesseract fails, check if you've got tesseract-ocr-eng installed"
fi
tmpdir="$(mktemp -d)"
for fn in "$@"; do
  convert "$fn" "$tmpdir/page.tif"
  tesseract "$tmpdir/page.tif" "$tmpdir/page" 2>&1 | grep -v '^Tesseract Open Source OCR Engine$'
  cat "$tmpdir/page.txt"
  cp -i "$tmpdir/page.txt" "${fn%.jpg}.txt"
  rm "$tmpdir/page.tif" "$tmpdir/page.txt"
done
rm -r "$tmpdir"

使用 GIMP 对图像进行预处理（使用阈值工具转换为黑白）似乎有很大帮助。

我希望从那时起情况有所改善。我最近在博客文章中看到了 OCR Feeder 这个名字，我会尝试一下。

Answer

不久前评估了 Ubuntu 中的各种 OCR 软件包，发现 Tesseract 是其中最不糟糕的（但也够糟糕了），并为 OCRing 编写了一个包装器脚本（因为 Tesseract 需要像 TIFF 这样的模糊输入格式）。这是我的~/bin/ocr：

#!/bin/sh
# usage: ocr filename.jpg
if test -z "$1"; then
    echo "usage: ocr filename.jpg [...]"
    echo "needs imagemagick and tesseract-ocr"
    echo "if tesseract fails, check if you've got tesseract-ocr-eng installed"
fi
tmpdir="$(mktemp -d)"
for fn in "$@"; do
  convert "$fn" "$tmpdir/page.tif"
  tesseract "$tmpdir/page.tif" "$tmpdir/page" 2>&1 | grep -v '^Tesseract Open Source OCR Engine$'
  cat "$tmpdir/page.txt"
  cp -i "$tmpdir/page.txt" "${fn%.jpg}.txt"
  rm "$tmpdir/page.tif" "$tmpdir/page.txt"
done
rm -r "$tmpdir"

使用 GIMP 对图像进行预处理（使用阈值工具转换为黑白）似乎有很大帮助。

我希望从那时起情况有所改善。我最近在博客文章中看到了 OCR Feeder 这个名字，我会尝试一下。

Question 3

Tesseract-ocr 包是命令行。如果您想要一个带有 GUI 的程序，我使用“gscan2pdf”，您可以在 Ubuntu 软件中心找到它。

在 gscan2pdf 中，您只需单击顶部附近的小扫描图标即可。我认为它为您提供了两三个选项，GOCR 效果不是很好，而 Tesseract 效果很好。选择 Tesseract，然后从此处单击相应的选项卡，以便找到分辨率设置。您最好的选择是 300 甚至 600，Tesseract 效果很好。

扫描质量差、扭曲或陈旧的文档无法很好地转换。祝您好运！

PS.. 我一直读到 Tesseract 只能读取 TIFF 图像。对我来说不是这种情况。我也可以导入 JPG 或 PNG。

PPS... 抱歉，我修改了！您也可以在软件中心尝试一下 OCRFeeder。不过我还没有试过。

Answer

Tesseract-ocr 包是命令行。如果您想要一个带有 GUI 的程序，我使用“gscan2pdf”，您可以在 Ubuntu 软件中心找到它。

在 gscan2pdf 中，您只需单击顶部附近的小扫描图标即可。我认为它为您提供了两三个选项，GOCR 效果不是很好，而 Tesseract 效果很好。选择 Tesseract，然后从此处单击相应的选项卡，以便找到分辨率设置。您最好的选择是 300 甚至 600，Tesseract 效果很好。

扫描质量差、扭曲或陈旧的文档无法很好地转换。祝您好运！

PS.. 我一直读到 Tesseract 只能读取 TIFF 图像。对我来说不是这种情况。我也可以导入 JPG 或 PNG。

PPS... 抱歉，我修改了！您也可以在软件中心尝试一下 OCRFeeder。不过我还没有试过。

Question 4

我有 Linux Mint 17.2 x32 Cinnamon。这些步骤可能也适用于 Ubuntu 14.04 x32。

安装 Tesseract OCR sudo apt-get install -y tesseract-ocr tesseract-ocr-eng 您可以通过安装其他软件包来添加其他语言。此屏幕截图来自 synaptic： Synaptic 中的 Tesseract 语言包

使用 Tesseract

选项 1 - 通过命令行打开终端，然后转到保存图像文件（jpg，png）的文件夹并运行命令：

a) 将所有图像文件转换为文本

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" text; done

要将所有文本文件合并为一个，请运行命令cat *.txt >> all.txt

b) 将所有图像文件转换为 hocr 文件（使用 Firefox 打开）

for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" hocr; done

选项 2 - 通过 GUI

a) 安装 gImageReader 并使用它

sudo add-apt-repository -y ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install -y gimagereader

b) 第二个应用程序是 VietOCR。实际版本是 4.0，因此下载 VietOCR-4.0.zip

解压文件并用 Java 打开 VietOCR.jar：

通过 Java 打开 VietOCR 如果你没有安装 Java，那么你可以从存储库安装它，或者你可以安装官方的 Oracle Java 8。在 Ubuntu 14.04 中安装 Oracle Java 8 的步骤

sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer
sudo apt-get install oracle-java8-set-default

我推荐 VietOCR，因为它可以让您对 pdf 文件进行 OCR，批量转换也是一个选项。

Answer