从 pdf、MS ofiices 文件和其他文档中提取文本

从 pdf、MS ofiices 文件和其他文档中提取文本

我需要一个命令行工具,可以从 MS Office 文件(所有格式)、pdf 和其他文件格式中提取纯文本。

我查看了自由办公命令行,但找不到所有格式的过滤器

答案1

对于办公文件,您可以使用:

libreoffice --headless --convert-to output_file_extension[:output_filter_name] [--outdir out‐put_dir] file

更多关于:

对于 pdf 文件,我看到您已经找到了pdftotext

相关内容