我tesseract
过去曾多次成功使用 OCR。在 macOS 上;它由“home-brew”安装
今天我做到了
WGroleau@MBP ~ % brew upgrade # to make sure everything is the latest and then …
WGroleau@MBP ~ % tesseract ~/Downloads/temp.jpg stdout -l chi_sim
福佳生活饶
最后一个(第五个)字符不正确,因此我对该字符进行了细微的图形编辑,然后运行了相同的命令。没有输出,没有诊断。运行详细命令 — 仍然没有诊断,只有它使用的库。
从文件中剪掉编辑的字符并尝试。仍然没有输出,没有诊断。
下一步我该做什么?
更新:如果我告诉它使用“仅旧版引擎”,我会得到:
Error: Tesseract (legacy) engine requested, but components are not present in /usr/local/share/tessdata/chi_sim.traineddata!!
Failed loading language 'chi_sim'
Tesseract couldn't load any languages!
Could not initialize tesseract.
答案1
尝试添加选项--psm 13
,成功了。不明白为什么之前在同一个程序保存的 .jpg 上成功了两次或更多次。也不明白为什么在它默默失败(第一次)时没有诊断消息,而在第二次时却出现错误。