我在 Linux 中,Kubuntu 22.10。
一些程序(包括 Plasma PDF 查看器 Okular)会将特定(1000 多页)pdf 中的部分页面显示为空白,但其他程序(包括一些互联网浏览器)会显示所有页面而没有空白。
将所有页面提取为 pdf 后,同样有问题的页面也出现了同样的情况。
用其他程序进行测试并总结:
所有页面都可以通过 WPS PDF、Master PDF、Firefox、Vivaldi 浏览器、Opera(因此我猜也可以通过 Chromium/Chrome)、LibreOffice Draw、ImageMagick、mupdf、PDF Studio Viewer 查看
空白(仅带有页脚)显示在 Okular、Qpdfviewer、PDF Aranger、Falkon(互联网浏览器!)、Inskape、Krita 中
在 Kubuntu 中以 snap 形式安装的 Evince(文档查看器)无法打开大文件,也无法打开任何单独的 pdf 页面,而是给出错误:(
Error opening file the.pdf: Permission denied
它会打开其他 pdf 文件)
(这里是我的 askubuntu 问题,有更多详细信息。)
我已经上传了其中一个棘手的 pdf 页面文档机器人供测试用。
我如何才能找到有关此类文件的更多详细信息?
(我很好奇这里的工作原理 - 虽然出于实际目的,我可以通过在浏览器中打印为 pdf 或仅仅使用不同的 pdf 查看器来解决这个问题)。
请下载该页面,看看是否可以详细说明为什么该页面与这一个(相同,但是通过在 Opera 中以“作为图像”打印为 pdf 进行了修复)。
答案1
分析过程
我下载了该页面,发现一个奇怪的事实:Adobe Reader 和 Foxit Reader 都可以显示文本,但无法正确复制。任何其他应用程序都会显示粘贴的文本并产生失真。
我以为这是字体的问题,所以我使用 Adobe Reader 查看嵌入的字体,发现我的电脑上缺少两种字体:TimesNewRomanPSMT 和 ArialMT。但下载字体没有任何改变 - 其他应用程序仍然无法按原样粘贴复制的文本。
然后,我尝试使用 WhatTheFont 网站,但却无法在13万种字体中识别出该字体。
当我复制以下原始文本时,就会出现文本复制粘贴问题的一个例子:
但是当我在浏览器或 Word 中粘贴时,我得到了这个,这只是一个非精确的近似值:
Oral si suflet,《Institutului de Filologie si folklor》杂志,由 Ovid Densuseanu 于 1929 年在布加勒斯特出版。
注意粘贴文本中的字符错误。
当我使用 Word 打开 PDF 时,我得到的页面只是古代文本的图像,我无法选择其中的任何文本。
结论
此 PDF 的行为就好像显示的部分是使用某些旧字体的古代文本的背景图像,而前景文本是使用不精确的 OCR 创建的。
OCR 文本的行为就像图像中的文本一样,因为它是透明的并且放置在在图像前面。它是可选择的,并且其选择颜色只是部分透明的,因此看起来您正在选择显示的文本,但您选择的是经过 OCR 处理的文本。
无法正确处理透明度的图像查看器将显示空白页,图像不会“显示出来”。这是透明度问题。