我有一本扫描版的 pdf 文件。
有些页面没有正确对齐,显然需要一些旋转,小于 90 度。页面中的文本没有很好的定义限制,但有一些垂直或水平的装饰线可以用作标记。
是否有任何解决方案可以一页一页地固定页面,画一条线或类似的东西来定义光学方向?
答案1
某些 PDF 处理程序具有在处理文件时自动消除文件倾斜的选项。
一般来说,该过程是将 PDF 拆分为每页一个图像文件,对每个图像进行歪斜校正,然后将所有页面合并回一个新的 PDF 文件。
有些程序可以自动执行此分割/偏移校正/合并过程 - 例如ocrmypdf,它可以向尚无文本层的 PDF 添加文本层(或用新文本层替换现有文本层),有一个--deskew
选项可以在使用之前对每个页面执行此操作tesseract-ocr生成文本。