如何*自动*校正和裁剪由扫描页面生成的 PDF?

如何*自动*校正和裁剪由扫描页面生成的 PDF?

可能重复:
我可以使用哪些免费软件来校正扫描图像的倾斜

我有几份由书页扫描件组成的 PDF。这些扫描件每次扫描两页,其中一些扫描件倾斜,导致文本看起来略微倾斜。

我正在寻找一种工具,可以让我通过消除扫描倾斜而不影响可读性来进行自动优化。我找到了 GPL 软件布里斯裁剪扫描件以获得 1:1 的页面比例而不是 2:1,但我没有任何工具可以校正页面倾斜。

我偶然发现未纸化,另一个开源工具似乎非常适合我想要做的事情,但是该工具仅适用于 Linux,并且不能直接处理 PDF 文件。

任何提示都值得赞赏。

答案1

看一下去偏移。它是一个命令行工具。下载的 *zip 似乎包含适用于 Windows、MacOSX 和 Linux 的二进制文件。

许可证是 MPL(Mozilla)或 LPGL(GNU),无论您喜欢什么。

对您来说,唯一的缺点似乎是它不支持 PDF,只支持 PNG 和 TIFF 图像(AFAICS)。这意味着您必须设置以下工作流程:

 PDF.orig -> PNG.orig -> PNG.deskewed -> PDF.deskewed

我还没有亲自测试过,最近才偶然发现该网站并将其添加到书签。

答案2

哦,让我再补充一个答案。我刚想起来网络结构。好几年没用过了,但我想我应该重新看一下……

netpbm 是一款功能非常强大的命令行图像处理工具包。它附带了近 300 个独立工具。它包括大约 100 种图形格式的转换器。

它还有一个可以旋转图像的命令行工具:

pnmrotate

它还有另一个工具可以尝试发现旋转图像的角度:

pamtilt

pamtilt返回图像旋转猜测的浮点数。因此,图像的自动去倾斜应该是可以实现的。可以编写一个 shell 脚本来执行此操作。它需要不同的步骤:

  1. 在 Ghostscript 的帮助下将 PDF 页面转换为适合 netpbm 的图像格式。
  2. 用于pamtilt自动发现图像的倾斜角度。
  3. 用于pnmrotate消除图像倾斜。
  4. 将图像重新转换为 PDF。

如果您允许我访问您的 PDF 文件的一小部分样本,我可以尝试编写一个 shell 脚本来完成此任务。


(我非常怀疑 [netpbm] 在超级用户+stackoverflow 上没有标签。)

相关内容