tesseract OCR 没有输出也没有诊断

2024-11-18 • tag-icon

我tesseract过去曾多次成功使用 OCR。在 macOS 上；它由“home-brew”安装

今天我做到了

WGroleau@MBP ~ % brew upgrade # to make sure everything is the latest and then …
WGroleau@MBP ~ % tesseract ~/Downloads/temp.jpg stdout -l chi_sim
福佳生活饶

最后一个（第五个）字符不正确，因此我对该字符进行了细微的图形编辑，然后运行了相同的命令。没有输出，没有诊断。运行详细命令 — 仍然没有诊断，只有它使用的库。

从文件中剪掉编辑的字符并尝试。仍然没有输出，没有诊断。

下一步我该做什么？

这是编辑后但裁剪前的文件：

更新：如果我告诉它使用“仅旧版引擎”，我会得到：

Error: Tesseract (legacy) engine requested, but components are not present in /usr/local/share/tessdata/chi_sim.traineddata!!
Failed loading language 'chi_sim'
Tesseract couldn't load any languages!
Could not initialize tesseract.

答案1

尝试添加选项--psm 13，成功了。不明白为什么之前在同一个程序保存的 .jpg 上成功了两次或更多次。也不明白为什么在它默默失败（第一次）时没有诊断消息，而在第二次时却出现错误。

答案1

相关内容