我正在制作一个文本搜索引擎。我需要先将二进制文档转换为文本。我想使用跨平台(我们在 Windows 和 Linux 上进行开发)命令行(以便我可以通过 python 子进程获取输出)。这有哪些选择?
答案1
有pdf转文本对于 PDF 和反词适用于 DOC(不确定是否适用于 DOCX)。 这两个软件都是命令行的免费软件。 之前在 Linux 上都用过,效果还不错。
Sphider 是一款免费搜索引擎,它使用pdf转文本和卡特多克。卡特多克我也用过,效果也很好。
对于 DOC 文件,还有西弗吉尼亚州和单词(单词是一个 GUI,但也有命令行界面)。不过,我还没有能够测试这些。
关于 DOCX 的一个提示:
我以前用过这个将 DOC 转换为 PDF,效果很好。也许它也支持 TXT,或者你可以使用pdf转文本. LiveDocX 还可以通过 SOAP 网络服务访问
pdftohtml
附言:还有pdftk
命令行工具和套件LibreOffice
,OpenOffice
它们可以使用 DOCX 并将所有内容本地转换/保存为文本。不过,我没有从命令行尝试 LibreOffice 和 OpenOffice...