我有一个没有源代码的 pdf 文件。(可能是通过一系列没有 OCR 或某些所见即所得文本处理器的扫描生成的,甚至可能是在 Gimp 中绘制的。)澄清:这些页面不一定是纯图像的,但为了简单起见,即使解决纯图像 pdf 的问题也是一个好的开始。如果可以解决问题并保留更复杂的 pdf 组件,那就更好了。
不失一般性,我们假设本文档是一篇数学论文/文章,包含一些省略证明的定理。还假设每页都是 DIN A4 纸。
我需要以下内容:
逐字导入第 1...X 页
沿坐标 (x,y) 的线剪切第 X+1 页:(0, 0.5)-(0.1, 0.4)-(0.2, 0.4)-(0.3, 0.5)-(1.0,0.5),并将上部插入第 X+1 页。
- 将定理的证明(包含章节、段落和图形的 Latex 格式的块)附加到第 X+1 页。
- 将步骤 2 中剪切的下部附加到第 X+1 页,从而将页面的垂直尺寸从高度 (A4) 增加到大约 2*高度 (A4)。
- 导入页面 X+2...逐字结束。
- 将文件保存为 pdf。
期望地:
- 自动将第 X+1 页剪切成所需数量的 A4 页面,以避免打印时过满。
- 重新计算所有可能由臭名昭著的文本处理器生成的页面的引用,该文本处理器生成了用于电子书阅读的原始 pdf。