我有一个扫描文件,其中的文本已经被识别,但它却有 80 MB 的巨量。在扫描过程中,我做了一件愚蠢的事情,例如以灰度扫描。现在 PDF 中有大量划线和笔划标记。我相信这个大小是因为所有这些污点。
简单的转换似乎不是这里的解决方案
ps -dPDFSETTINGS=/screen
这会导致字体变得参差不齐,阅读起来不舒服。几乎所有关于减小尺寸的其他问题都可以通过涉及一种或另一种转换的下采样来解决,而这种转换对文本的损害比其他任何事情都大。
有没有办法丢弃背景信息并保留实际文本?
答案1
如果您只想要文本,而不需要太多格式,您可以尝试以下命令:
less yourfile.pdf >> output.txt
如果文档在原始扫描中没有“大量的划线和笔画标记”,我通常会得到很好的结果本网站减小 PDF 尺寸。