我有很多图像,我需要找到其中哪些包含英文文本(以删除它们)。可以自动完成吗?
答案1
我也遇到了同样的问题,分享一下我的解决方案:
find . -type f \( -name "*.jpg" -or -name "*.png" \) -exec sh -c 'for x; do printf "%s :" "$x"; tesseract $x temp; if (grep -f blacklist temp.txt) then rm $x; rm temp.txt; fi; done' _ {} +
扫描所有子目录并根据名为“blacklist”的文件删除匹配的 OCR 模式。唯一的问题:如果文件中有空格,它不会正确解析它,而是尝试在文件的第一个单词上运行。
编辑:小心不要在黑名单文件上留下任何空白行。
答案2
例如,您可以使用开源 OCR 引擎宇宙立方体,以确定是否有英文文本。