我可以转换扫描的 pdf 文件的颜色并降低扫描分辨率以节省内存，同时保留 OCR 中的现有文本图层吗？

2024-6-11 • tag-icon

我可以转换扫描的 pdf 文件的颜色并降低扫描分辨率以节省内存，同时保留 OCR 中的现有文本图层吗？

我有一堆 pdf 文件，这些文件很久以前就被扫描过并且已经可以搜索了（即它们经过了 OCR）。

然而，光照水平和对比度设置并不是最佳的。

是否可以将现有文件的每像素位数减少到合理的低水平为了节省存储空间（进行颜色曲线转换、色调分离甚至二值化为黑白，就像 Gimp 或其他图像处理程序一样）？

文件以 600 dpi 扫描，并且已经可搜索，即除了扫描图像之外还有文本层。可能选择如此高的扫描分辨率是为了获得更好的 OCR 结果。但这使它们变得过大。我认为，200 dpi 的扫描可以产生良好的视觉质量，并且内存要求要少得多。我想保持 OCR 生成的文本图层具有良好的 OCR 质量。正确的命令是什么？

相关内容