问题:如何让 Adobe Acrobat Pro DC 将文件夹中的所有 PDF 文件导出为文本文件?
使用 Adobe Acrobat Pro DC 工具菜单上的操作向导,我能够创建一个自定义命令,该命令允许我将数千张图像导出 (OCR) 为 pdf 文件。我现在想导出这些图像;它们现在可以作为文本文件进行搜索。但是我似乎找不到一组类似的工具来执行此操作。
注意:有一个导出按钮允许我将文件一次导出为文本文件,但我似乎找不到允许我对整个文件夹运行命令的东西。
编辑:我打电话给客户支持,一个可能的解决方法是将所有文件合并为一个巨大的 PDF 文件,然后导出该 PDF 文件。另一方面,我需要为每个导出为文本的 PDF 文件提供单独的 ID,所以这不是一个选择。
答案1
您可以使用 PowerShell 结合pdf。
Xpdf 将安装一个名为的程序pdftotext
,可以通过 PowerShell 脚本调用,例如:
$FILES= ls *.pdf
foreach ($f in $FILES) {
& "C:\Program Files\xpdf\bin32\pdftotext.exe" -enc UTF-8 "$f"
}
.bat
无需使用 PowerShell即可从文件调用类似的批处理脚本:
for /f %%G in ('dir /b') do {
"C:\Program Files\xpdf\bin32\pdftotext.exe" -enc UTF-8 "%%G"
)
(注意:所有脚本均未经过测试。)