为文件管理器上下文菜单编写 tesseract 脚本

Question

我认为这可能是由于一个错误超正方体。因此，替代解决方案可能是这样的：

for filename in "${@}"; do
name="${filename%.*}"
ext="${filename##*.}"
output="${name}-alpha.${ext}"
convert "$filename" -alpha off "$output"
mv "$output" "$filename"
dpi="$(identify -units "PixelsPerInch" -format "%x\n" "$filename" | xargs printf "%.*f\n" "0")"
ocrmypdf -l eng --image-dpi "$dpi" "$filename" "${name}.pdf"
pdftotext -q "${name}.pdf"
ocr_txt="$(cat "${name}.txt" | sed -e "s///g" -e "s/\t/ /g" -e "s/  / /g" -e "/^\s*$/d")"
kdialog --title "Image OCR Text" --msgbox "$ocr_txt"
rm "${name}.pdf" "${name}.txt"

完毕

这将根据 ocrmypdf 的要求删除任何透明度（alpha）通道；将图像 dpi 分辨率传递给它以获得更好的结果；然后使用 ocrmypdf 将图像转换为嵌入 OCR 文本层的 pdf；最后在对话框中显示该文本。

Answer 1

我认为这可能是由于一个错误超正方体。因此，替代解决方案可能是这样的：

for filename in "${@}"; do
name="${filename%.*}"
ext="${filename##*.}"
output="${name}-alpha.${ext}"
convert "$filename" -alpha off "$output"
mv "$output" "$filename"
dpi="$(identify -units "PixelsPerInch" -format "%x\n" "$filename" | xargs printf "%.*f\n" "0")"
ocrmypdf -l eng --image-dpi "$dpi" "$filename" "${name}.pdf"
pdftotext -q "${name}.pdf"
ocr_txt="$(cat "${name}.txt" | sed -e "s///g" -e "s/\t/ /g" -e "s/  / /g" -e "/^\s*$/d")"
kdialog --title "Image OCR Text" --msgbox "$ocr_txt"
rm "${name}.pdf" "${name}.txt"

完毕

这将根据 ocrmypdf 的要求删除任何透明度（alpha）通道；将图像 dpi 分辨率传递给它以获得更好的结果；然后使用 ocrmypdf 将图像转换为嵌入 OCR 文本层的 pdf；最后在对话框中显示该文本。

为文件管理器上下文菜单编写 tesseract 脚本

答案1

相关内容