旧图书馆书籍的 PDF...为什么文本和背景似乎位于不同的图层中?

旧图书馆书籍的 PDF...为什么文本和背景似乎位于不同的图层中?

通常,当我打开 PDF 时,我会看到页面的背景出现,出现文本元素或照片。

这让我很困惑,因为许多 PDF 都来自 Google 对旧图书馆书籍的扫描……而不是多层 PSD,而它们的行为似乎正是如此。文本和照片元素是否真的从扫描中删除——背景散布在空白处——然后文本和照片被矢量化并分层回到背景上?究竟发生了什么?

答案1

这可能是由于 OCR 软件用于自动将图像转换为文本。当我使用具有 OCR 功能的 Xerox 扫描仪扫描教科书页面时会发生这种情况。通常,生成的 PDF 文件中的文本可能不准确,或有多余的空格,或完全位于不同的层上!

相关内容