批量将 PDF 转换为可搜索的 PDF

批量将 PDF 转换为可搜索的 PDF

我正在寻找一种方法来将数千个 PDF 转换为可搜索的 PDF。我使用了 Nuance 的一款名为“PDF Create Assistant”的程序复制软件。但是,您无法选择文件夹,您必须进入每个子文件夹,选择要转换的文件,然后进入下一个文件夹。

将大量 pdf 转换为可搜索 pdf 的另一种方法是什么?

没有任何建议。肯定有办法批量转换 pdf(?)。

答案1

使用 BIN 文件夹中的 CPYCONVERTER.EXE 文件作为命令行(eCopy Ver.9-Paperworks 支持通配符)这适用于 8.5 eCopy Desktop。

Command Line Cpy Converter Version 8.5 (Build 0.116)
 Copyright c 1992 - 2004. All rights reserved.

 Converts CPY to CPY, CPY to TIF or TIF to CPY

Usage:
 cpyconverter.exe [-?] -S=<source path> -D=<dest path> [-P] [-E] [-Q] [-B] [-O]
[-T3/T4/TC/C/U]

Note:
 Wildcards are not supported.  Full paths must be used for source and destinatio
n

Switches:
--------------------
-?                      : This menu
-Q                      : Turn off logging.
-P                      : Converter pauses after conversion.
-E                      : Converter pauses if there is an error.
-B                      : Converter burns-in Blackout/Whiteout markups (if appli
cable).
-O                      : Converter OCRs document and creates searchable text (i
f applicable).
-S="<SOURCE PATH>"      : The path of the file to convert.
-D="<DESTINATION PATH>" : The path of the newly converted file.
-P=<PASSWORD>           : Password for encrypting and decrypting documents.
--------------------
 * If the source document is encrypted CPY converter will attempt to decrypt it
to the destination document with the supplied password.
 * If the source document is not encrypted CPY converter will attempt to encrypt
 the destination document using the supplied password.
 * Please note you cannot encrypt/decrypt tif documents.

-<Conversion Type>      : The type of conversion to be done(T3, T4, TC, C, U)
--------------------
* T4 - Convert CPY to TIF Group4
* T3 - Convert CPY to TIF Group3
* C  - Convert TIF(Any group) to CPY
* U  - Convert CPY to CPY

Ex.1 cpyconverter.exe -S="C:\My Dir\test.tif" -D="C:\My Dir\test.cpy" -C
Convert Tiff to cpy

Ex.2 cpyconverter.exe -S="C:\My Dir\test.cpy" -D="C:\My Dir\test.tif" -T3
Convert Cpy to Tif Group 3

Ex.3 cpyconverter.exe -S="C:\My Dir\test.cpy" -D="C:\My Dir\test.tif" -T4
Convert Cpy to Tif Group 4

答案2

在 Linux 上

首先,您需要对PDF尚未进行 OCR 处理的文件进行 OCR。我编写了一个非常简单的方法来搜索所有无法编辑的 pdf 文件grep并对其进行 OCR。

我注意到如果pdf文件没有任何字体,通常无法搜索。了解这一点后,我们可以使用pdffonts

前两行pdffonts是表头,因此当一个文件可搜索时会有超过两行的输出,知道了这一点我们可以创建:

gedit check_pdf_searchable.sh

然后粘贴此

#!/bin/bash 
#set -vx
if ((`pdffonts "$1" | wc -l` < 3 )); then
echo $1
pypdfocr "$1"
fi

然后使其可执行

chmod +x check_pdf_searchable.sh

然后列出目录中所有不可搜索的 pdf:

ls -1 ./*.pdf | xargs -L1 -I {} ./check_pdf_searchable.sh {}

或者在目录及其子目录中:

tree -fai . | grep -P ".pdf$" | xargs -L1 -I {} ./check_pdf_searchable.sh {}

答案3

最简单的方法是使用在线 ocr api.ocr.space api 包括创建可搜索的 PDF。该服务有每月 25,000 次转换的免费套餐。

然后,您可以使用 Powershell、批处理或任何其他脚本语言自动执行此操作。例如,使用 cURL 从批处理触发转换:

curl -H "apikey:helloworld" --form "[email protected]" --form "language=eng" -form "isOverlayRequired=true" https://api.ocr.space/Parse/Image

相关内容