这个 pdf 页面有什么特别之处?

这个 pdf 页面有什么特别之处?

我在 Linux 中,Kubuntu 22.10。

一些程序(包括 Plasma PDF 查看器 Okular)会将特定(1000 多页)pdf 中的部分页面显示为空白,但其他程序(包括一些互联网浏览器)会显示所有页面而没有空白。

将所有页面提取为 pdf 后,同样有问题的页面也出现了同样的情况。

用其他程序进行测试并总结:

  • 所有页面都可以通过 WPS PDF、Master PDF、Firefox、Vivaldi 浏览器、Opera(因此我猜也可以通过 Chromium/Chrome)、LibreOffice Draw、ImageMagick、mupdf、PDF Studio Viewer 查看

  • 空白(仅带有页脚)显示在 Okular、Qpdfviewer、PDF Aranger、Falkon(互联网浏览器!)、Inskape、Krita 中

  • 在 Kubuntu 中以 snap 形式安装的 Evince(文档查看器)无法打开大文件,也无法打开任何单独的 pdf 页面,而是给出错误:(Error opening file the.pdf: Permission denied它会打开其他 pdf 文件)

这里是我的 askubuntu 问题,有更多详细信息。)

我已经上传了其中一个棘手的 pdf 页面文档机器人供测试用。

我如何才能找到有关此类文件的更多详细信息?

(我很好奇这里的工作原理 - 虽然出于实际目的,我可以通过在浏览器中打印为 pdf 或仅仅使用不同的 pdf 查看器来解决这个问题)。

请下载该页面,看看是否可以详细说明为什么该页面与一个(相同,但是通过在 Opera 中以“作为图像”打印为 pdf 进行了修复)。

答案1

分析过程

我下载了该页面,发现一个奇怪的事实:Adobe Reader 和 Foxit Reader 都可以显示文本,但无法正确复制。任何其他应用程序都会显示粘贴的文本并产生失真。

我以为这是字体的问题,所以我使用 Adob​​e Reader 查看嵌入的字体,发现我的电脑上缺少两种字体:TimesNewRomanPSMT 和 ArialMT。但下载字体没有任何改变 - 其他应用程序仍然无法按原样粘贴复制的文本。

然后,我尝试使用 WhatTheFont 网站,但却无法在13万种字体中识别出该字体。

当我复制以下原始文本时,就会出现文本复制粘贴问题的一个例子:

在此处输入图片描述

但是当我在浏览器或 Word 中粘贴时,我得到了这个,这只是一个非精确的近似值:

Oral si suflet,《Institutului de Filologie si folklor》杂志,由 Ovid Densuseanu 于 1929 年在布加勒斯特出版。

注意粘贴文本中的字符错误。

当我使用 Word 打开 PDF 时,我得到的页面只是古代文本的图像,我无法选择其中的任何文本。

结论

此 PDF 的行为就好像显示的部分是使用某些旧字体的古代文本的背景图像,而前景文本是使用不精确的 OCR 创建的。

OCR 文本的行为就像图像中的文本一样,因为它是透明的并且放置在在图像前面。它是可选择的,并且其选择颜色只是部分透明的,因此看起来您正在选择显示的文本,但您选择的是经过 OCR 处理的文本。

无法正确处理透明度的图像查看器将显示空白页,图像不会“显示出来”。这是透明度问题。

答案2

作为补充信息:

  • 这是 的一个错误poppler,已发布这里, 最初这里、Evince 和 Atril(Mint PDF 查看器)也受到影响。

  • 为了修复这些页面,我在 Firefox(或 Chrome、Vivaldi、Opera - 也必须选择“打印为图像”)中将它们“打印为 PDF”。根据 RAM 容量,一次“打印为 PDF”的页面不应超过 200-300 页,以避免死机/崩溃。

相关内容