我正在尝试使用 .pdf 将 PDF 文件转换为文本文件textutil
。我不知道是否有特殊类型的 PDF 可以转换或不能转换。我尝试转换的文件采用可搜索格式,我认为这是最低要求。当我转换文件时,文本文件输出完成后出现乱码。这是我的代码:
textutil -convert txt example.pdf
以下是第一行的一些内容,以防有助于确定我哪里出错了:
%PDF-1.3
%ƒÂÚÂÎßÛ†–ƒ∆
4 0 obj
<< /Length 5 0 R /Filter /FlateDecode >>
stream
xÌõYè‹∏«flı)8>2”„å,R%Ÿªõ¯fixs9ôM‚<YÅ`„Ô‰W,J¢‘íF3”@^2Z›<ädˇ:(ˇl>òüçuπ´Í¶ñ¶nõº.⁄⁄
4>~˘œ?Ã_ÕøÕ”W_≠˘Ù’·fl◊OL.ò´øÂKI5ÖÀª∫*≥O_ÃÀk”‘aH|\1OØØù
±Ê˙'sqv0◊ˇ2oÆ√Vñ©˘÷Êmy2jæ»;P+Ú¢(*s˝ikó3>z¸ãõæ8;èè˙΄·ê—z~=|
¯D˝rËî)WÈå<˝¡ÒˇnÆfl/3¿’UnõÆ4~∫Á;Ú”µ≠J˙4‰JWùîgz8€]êªA@g¸≠kRŸ¯‹÷ùàëeÁÔπUŸÓ÷Ü´≤Œ
我猜这与某些编码功能有关——不是我的专业领域,所以任何帮助将不胜感激!
答案1
参考TEXTUTIL(1) 手册页 它似乎pdf不属于该实用程序管理的格式之间:
fmt is one of: txt, html, rtf, rtfd, doc, docx, wordml, odt, or webarchive
在 Linux/Unix 上安装可编写脚本的产品,例如XPDF/pdftotext 可能是一个有效的解决方案,就像已经建议的一些评论一样。
对于 OS X 上的用户,可以通过本机 OS X 自动操作从 PDF 中提取文本( ..看这个答案或者本教程的最后 4')然后考虑自动化的工作流程可以通过以下方式“编写脚本”CLI 自动命令