跨平台、命令行实用程序,用于将 PDF、DOC 和 DOCX 转换为文本

跨平台、命令行实用程序,用于将 PDF、DOC 和 DOCX 转换为文本

我正在制作一个文本搜索引擎。我需要先将二进制文档转换为文本。我想使用跨平台(我们在 Windows 和 Linux 上进行开发)命令行(以便我可以通过 python 子进程获取输出)。这有哪些选择?

答案1

pdf转文本对于 PDF 和反词适用于 DOC(不确定是否适用于 DOCX)。 这两个软件都是命令行的免费软件。 之前在 Linux 上都用过,效果还不错。

Sphider 是一款免费搜索引擎,它使用pdf转文本卡特多克卡特多克我也用过,效果也很好。

对于 DOC 文件,还有西弗吉尼亚州单词单词是一个 GUI,但也有命令行界面)。不过,我还没有能够测试这些。

关于 DOCX 的一个提示:

http://www.livedocx.com/

我以前用过这个将 DOC 转换为 PDF,效果很好。也许它也支持 TXT,或者你可以使用pdf转文本. LiveDocX 还可以通过 SOAP 网络服务访问

pdftohtml附言:还有pdftk命令行工具和套件LibreOfficeOpenOffice它们可以使用 DOCX 并将所有内容本地转换/保存为文本。不过,我没有从命令行尝试 LibreOffice 和 OpenOffice...

答案2

对于pdf转文本的一个补充,我知道另一个开源:PDFLib 工具。该库可以将整个 pdf 页面转换为带有页面布局的文本。它支持多种语言(所有 ascii 语言),例如英语、法语、拉丁语,此外还支持 CJK 语言,因此它对您的文本搜索引擎非常有用。我在网上找到了一个pdf 转文本工具使用PDFLib,这样您就可以执行PDFlib的操作。

相关内容