Apache Tika:将 tika.xml 放在何处以禁用 OCR

Apache Tika:将 tika.xml 放在何处以禁用 OCR

我正在运行 Apache Tika,从一堆 MS Office 文档中提取文本。我的命令如下:

java -jar "c:\path\to\tika-app-2.0.0.jar" -t ...

(我在 Win10 的 MSYS2 终端上运行此命令)。收到很多类似这样的消息:

INFO [main] 08:02:46,683 org.apache.tika.parser.ocr.TesseractOCRParser Tesseract is installed and is being invoked. This can add greatly to processing time. If you do not want tesseract to be applied to your files see: https://cwiki.apache.org/confluence/display/TIKA/TikaOCR#TikaOCR-disable-ocr

我需要把tika.xml他们提供的放在哪个目录中?我把它放进去了,c:\path\to\但没有用。

答案1

您可以将配置文件放置在您喜欢的任何位置。

使用环境变量TIKA_CONFIG指向该文件。

参考: 配置 Tika - 使用 Tika 配置 XML 文件

相关内容