使用 pdfsandwitch 时出现“sh: 1: 无法打开 /tmp/pdfsandwich4e375e.html: 没有此文件”

Question 1

事实证明，配置文件的格式随着当前的 ubuntu 版本的 tesseract（3.02.01）而发生了变化：http://code.google.com/p/tesseract-ocr/source/browse/trunk/tessdata/configs/hocr?r=526. 现在可以使用单行配置文件指示 Tesseract 以 hocr 格式输出tesseract-config：

tessedit_create_hocr 1

-tesso正如问题中所述，可以通过将选项传递给来指示 tesseract 读取配置文件pdfsandwich：

pdfsandwich -tesso tesseract-config test.pdf

Answer

事实证明，配置文件的格式随着当前的 ubuntu 版本的 tesseract（3.02.01）而发生了变化：http://code.google.com/p/tesseract-ocr/source/browse/trunk/tessdata/configs/hocr?r=526. 现在可以使用单行配置文件指示 Tesseract 以 hocr 格式输出tesseract-config：

tessedit_create_hocr 1

-tesso正如问题中所述，可以通过将选项传递给来指示 tesseract 读取配置文件pdfsandwich：

pdfsandwich -tesso tesseract-config test.pdf

Question 2

出现此错误的原因是 tesseract 更改了 hocr 的默认文件扩展名，导致其与 pdfsandwich <0.1.0 不兼容。对于 tesseract 3.02 和 pdfsandwich <0.1.0，修改 tesseract 选项文件并使用 -tesso 将其传递给 pdfsandwich 会有所帮助。

Tesseract 3.03 是 Ubuntu 14.04 中的默认 tesseract 版本，它大幅改变了 hocr 处理，使其与 hocr2pdf 部分不兼容，因此“-tesso”修复通常会导致文本层与扫描的图像不匹配。相反，需要使用 tesseract 本身而不是 hocr2pdf 来生成每一页 pdf 文件。

Pdfsandwich >=0.1.0 自动识别 tesseract 版本并选择适当的方式与 tesseract 交互，这样所有这些错误就不会再发生。

Answer

出现此错误的原因是 tesseract 更改了 hocr 的默认文件扩展名，导致其与 pdfsandwich <0.1.0 不兼容。对于 tesseract 3.02 和 pdfsandwich <0.1.0，修改 tesseract 选项文件并使用 -tesso 将其传递给 pdfsandwich 会有所帮助。

Tesseract 3.03 是 Ubuntu 14.04 中的默认 tesseract 版本，它大幅改变了 hocr 处理，使其与 hocr2pdf 部分不兼容，因此“-tesso”修复通常会导致文本层与扫描的图像不匹配。相反，需要使用 tesseract 本身而不是 hocr2pdf 来生成每一页 pdf 文件。

Pdfsandwich >=0.1.0 自动识别 tesseract 版本并选择适当的方式与 tesseract 交互，这样所有这些错误就不会再发生。

使用 pdfsandwitch 时出现“sh: 1: 无法打开 /tmp/pdfsandwich4e375e.html: 没有此文件”

答案1

答案2

相关内容