Apache Tika：将 tika.xml 放在何处以禁用 OCR

2024-9-17 • tag-icon

我正在运行 Apache Tika，从一堆 MS Office 文档中提取文本。我的命令如下：

java -jar "c:\path\to\tika-app-2.0.0.jar" -t ...

（我在 Win10 的 MSYS2 终端上运行此命令）。收到很多类似这样的消息：

INFO [main] 08:02:46,683 org.apache.tika.parser.ocr.TesseractOCRParser Tesseract is installed and is being invoked. This can add greatly to processing time. If you do not want tesseract to be applied to your files see: https://cwiki.apache.org/confluence/display/TIKA/TikaOCR#TikaOCR-disable-ocr

我需要把tika.xml他们提供的放在哪个目录中？我把它放进去了，c:\path\to\但没有用。

答案1

您可以将配置文件放置在您喜欢的任何位置。

使用环境变量TIKA_CONFIG指向该文件。

参考：配置 Tika - 使用 Tika 配置 XML 文件。

答案1

相关内容