我如何更新此递归目录文件搜索的输入和名称输出来处理以下情况

Question 1

我认为有两点。

别名扩展仅适用于第一个单词，不适用于选项。
您需要对提供的名称进行一些修改find。

虽然可以在find命令行中完成所有操作，但我认为为此目的创建一个脚本更容易，我们将其称为ocrmypdf.sh：

#!/bin/bash

languages='eng+rus+vie+...'
base="${1%.*}
ocrmypdf -l "$languages" --deskew --clean --force-ocr --sidecar "$base.txt" "$1" "$base.pdf --verbose 1

然后你可以运行它

find . \( -name '*.pdf' -o -name '*.jpg' -o -name '*.tiff' -o -name '*.jpeg' -o -name '*.tif' -o -name '*.png' \) | parallel --tag -j 2 ocrmypdf.sh '{}'

Answer

我认为有两点。

别名扩展仅适用于第一个单词，不适用于选项。
您需要对提供的名称进行一些修改find。

虽然可以在find命令行中完成所有操作，但我认为为此目的创建一个脚本更容易，我们将其称为ocrmypdf.sh：

#!/bin/bash

languages='eng+rus+vie+...'
base="${1%.*}
ocrmypdf -l "$languages" --deskew --clean --force-ocr --sidecar "$base.txt" "$1" "$base.pdf --verbose 1

然后你可以运行它

find . \( -name '*.pdf' -o -name '*.jpg' -o -name '*.tiff' -o -name '*.jpeg' -o -name '*.tif' -o -name '*.png' \) | parallel --tag -j 2 ocrmypdf.sh '{}'

Question 2

因此，在 user-ralfiedl 的指导下，以下内容适用于 MacOSX 上最新的基于 LSTM 的 Tessearct 4.0。

更新：我能够弄清楚如何将所有这些推入 .profile 或 . bashrc 这就是我首先想要的地方...以下内容不需要 txt 文件的变量。

function do_ocr () {
    #find . -name '*.pdf' -o -name '*.jpg' -o -name '*.tif' -o -name '*.png' -o -name '*.jpeg' -o -name '*.tiff'
    find_all_formats | parallel --tag -j 2 \
    ocrmypdf -l ori+por+srp+hin+chi_sim+spa+uzb_cyrl+mar+swa+ces+urd+nep+cat+mya+lit+dan+mlt+enm+bod+tir+tgl+tha+fas+hrv+ukr+lao+ben+eus+eng+dzo+nld+vie+ita+kir+pus+msa+heb+slv+kaz+rus+eng+vie+ukr+spa \
    --clean --deskew --rotate-pages --image-dpi 300 --jpeg-quality 75 --png-quality 75 \
    -i -f -O 2 --sidecar - --force-ocr '{}' '{}' --verbose 1

}

注意：您必须手动重建 4.0 的每个训练集，如brew install Tessearact 4.0 -Github 链接到安装 4.0 TrainingData 的说明

更新：有一个 Tesseract 4.0 的 docker 文件，您必须添加语言数据和 MacOSX 分步安装说明 - 这确保您共同安装了 Java 8 并且在 ScrollViewer.jar 的环境中。如果你得到这个，那么上面的函数可以让你使用所有语言“自动检测”，然后如果可能的话ocr图像，转换为PDF，并生成内容的sidecar txt文件（以原始语言）。

我的下一步工作将是制作一些能够获取语言 Office 文档并翻译它们的东西，并使用机器学习通过向文本文件添加更多数据来对图像进行 OCR 处理。

Answer