我有一个很大的 PDF 文档,里面有一本教科书的扫描页。我想在其中运行 Adobe Acrobat 9 的文本识别功能,但运行后却出现了这个菜单。
我对突出显示菜单中的选项感到困惑。哪个选项会产生最高质量/最易读的文本?我认为 600 dpi 意味着比 72 dpi 更高质量的图像,所以我对“高(72 dpi)”和“最低(600 dpi)”感到困惑。
答案1
您的选项的定性描述是指下采样图像的分辨率,而不是最终的图像质量。下采样到 72 dpi 会导致大量的下采样。
答案2
我不知道 Acrobat 的具体情况,但许多 OCR 程序针对“典型”大小的正文字体文本进行了优化,分辨率约为 300 dpi。从这个分辨率开始,然后尝试一页。如果出现大量翻译错误,请尝试 600 dpi。如果页面不干净,600 dpi 会产生足够大的伪影,足以被解释为标点符号之类的字符,需要对翻译进行更多清理(大多数 OCR 程序不知道图像的 dpi 是多少,它们只看到“混合大小的字体”)。除非您正在翻译巨大的字体,否则 72 dpi 的效果会让我感到惊讶。