我需要一个命令行工具,可以从 MS Office 文件(所有格式)、pdf 和其他文件格式中提取纯文本。
我查看了自由办公命令行,但找不到所有格式的过滤器
答案1
对于办公文件,您可以使用:
libreoffice --headless --convert-to output_file_extension[:output_filter_name] [--outdir out‐put_dir] file
更多关于:
- 看
man libreoffice
- 如何从 .doc 和 .docx 文件中提取纯文本?(unix)
对于 pdf 文件,我看到您已经找到了pdftotext
。