我有一本扫描成图像的书。它包含我想删除的水印。以下是示例页,其中包含最少的文本。我尝试使用 Adobe Acrobat XI(版本 11.0.23)在 Windows 上删除该水印,使用 Adobe 默认工具,但 Adobe 显示“Acrobat 无法在此文件中找到要删除的水印。如果您看到水印,则表明它不是在 Acrobat 或 Adobe PDFmaker 中添加的,因此无法检测到。” 另外,我想从页面上删除黄色背景,使其干净。用 Adobe Acrobat 尝试了此操作,结果相同:“Acrobat 无法在此文件中找到要删除的背景。如果您看到背景,则它不是在 Acrobat 或 Adobe PDFmaker 中添加的,因此无法检测到。”从 GHex 编辑器中我可以看到,水印图像似乎是由 Adobe Photoshop CS5 Windows 放置的。
因此,我想尝试检查和操作 PDF 文件结构的 Linux 命令行工具/库。我尝试了 qpdf,但我不知道如何识别此水印所属的数据流。
qpdf --stream-data=uncompress watermark.pdf uncompressed.pdf
这扫描器在线工具对我有用:通过应用“对比度”图像过滤器,徽标消失了,但它无法处理大文件(> 80MB),仅几页,然后它就挂断了。
答案1
没有单独的水印,您可以通过扫描页面另一侧的“渗透”来判断。因此,水印很可能在扫描时就在纸上,并且颜色变化程度很高,这可以证明这一点。因此,32 表示它很可能不是额外的套印。
如果您只是用“白色”填充,文本的边缘就会扭曲。
如果你尝试大幅减少颜色数量,其可读性就会降低。
理想情况下,应该在以更高的分辨率扫描时尝试“去除水印”。
为了获得良好的结果,需要进行一些文本增强,然后这表明 OCR 不太可能适合这张表。
但是,ScanWriter 过滤器在平衡调整方面似乎非常有效,因此使用 ImageMagic 或其他图形应用程序之类的工具(我正在使用 IrfanView 中的设置)可能会产生同样好的结果。