我正在运行 Apache Tika,从一堆 MS Office 文档中提取文本。我的命令如下:
java -jar "c:\path\to\tika-app-2.0.0.jar" -t ...
(我在 Win10 的 MSYS2 终端上运行此命令)。收到很多类似这样的消息:
INFO [main] 08:02:46,683 org.apache.tika.parser.ocr.TesseractOCRParser Tesseract is installed and is being invoked. This can add greatly to processing time. If you do not want tesseract to be applied to your files see: https://cwiki.apache.org/confluence/display/TIKA/TikaOCR#TikaOCR-disable-ocr
我需要把tika.xml
他们提供的放在哪个目录中?我把它放进去了,c:\path\to\
但没有用。