是否有可能提高有问题字体的旧 (La)TeX 文档的可读性?

是否有可能提高有问题字体的旧 (La)TeX 文档的可读性?

编辑:不知何故,我在按下悬赏按钮之前对这个问题所做的补充丢失了。向那些已经部分回答的人致歉。)

我偶尔会碰到大约 20-25 年前用 LaTeX 编写的旧论文,例如:

  • 这个:使用 Aladdin GhostScript 制作成 PDF;所以可能是 tex->dvi->ps->pdf 或类似的东西。
  • 这个:tex->dvi->ps->pdf,使用 dvips,然后使用适用于 Windows 的 Acrobat Distiller 3.01

无论如何,我尝试过的几款 PDF 阅读器的屏幕可读性通常很差。是否可以以某种方式重新处理文件以改善它?

具体来说,是否有可能...

  1. 操纵/调整位图字体以提高其可读性?
  2. 确定使用哪种字体(系列、粗细、大小) - 假设它是最常用的字体之一而不是深奥的东西 - 并用可扩展的、暗示的字体字形替换位图字体字形?
  3. 提取单词/行的文本并使用更清晰的字体重新排版?

当然,如果作者可以联系到并且有源代码,您可以直接找到他们然后重建(嗯,有点);但我们假设这不是一个选择,我们只有 PDF 可以使用。


以下是有关两个示例文件中的字体的更多信息:

$ pdffonts P29.pdf
name                                 type              encoding         emb sub uni object ID
------------------------------------ ----------------- ---------------- --- --- --- ---------
[none]                               Type 3            Custom           yes no  no     173  0
[none]                               Type 3            Custom           yes no  no     166  0
Courier                              Type 1            Standard         no  no  no     471  0
Courier                              Type 1            Standard         no  no  no     470  0
Helvetica                            Type 1            Standard         no  no  no     122  0
[none]                               Type 3            Custom           yes no  no     123  0

$ pdffonts ng.pdf 
name                                 type              encoding         emb sub uni object ID
------------------------------------ ----------------- ---------------- --- --- --- ---------
[none]                               Type 3            Custom           yes no  no       4  0
[none]                               Type 3            Custom           yes no  no       5  0
[none]                               Type 3            Custom           yes no  no       6  0
[none]                               Type 3            Custom           yes no  no       7  0
[none]                               Type 3            Custom           yes no  no       8  0
[none]                               Type 3            Custom           yes no  no       9  0
Helvetica-Bold                       Type 1            Standard         no  no  no      15  0
Times-Bold                           Type 1            Standard         no  no  no      16  0
Times-Italic                         Type 1            Standard         no  no  no      17  0
Times-BoldItalic                     Type 1            Standard         no  no  no      18  0
[none]                               Type 3            Custom           yes no  no      22  0
[none]                               Type 3            Custom           yes no  no      23  0
[none]                               Type 3            Custom           yes no  no      24  0
[none]                               Type 3            Custom           yes no  no      28  0
[none]                               Type 3            Custom           yes no  no      29  0
Times-Roman                          Type 1            Custom           no  no  no      52  0
Times-Italic                         Type 1            Custom           no  no  no      53  0
Times-BoldItalic                     Type 1            Custom           no  no  no      54  0
[none]                               Type 3            Custom           yes no  no      55  0

答案1

我截取了文档的第一页。我在 macOS 上的预览中打开了它。我截取了该页面的屏幕截图(没有页码)。我使用屏幕截图在预览中创建了一个新文档。我将文档另存为 PDF。我将 PDF 上传到 GDrive。我使用 Google Docs 打开了该文件。我打开了 Google Docs 文件并将其打印回 PDF。以下是结果图。

结果页面图片

这是一种草率而粗略的做法。列顺序丢失了。我认为,通过更加关注快照(即一次拍摄一列)和/或使用专业级应用程序,可以显著改善这个问题,避免这个问题。为此,我尝试在源 PDF 及其打印的 PDF 副本上使用 PDFElement 6 Pro。转换仅捕获了页码。测试应用程序的 OCR 选项需要付费(Google 免费提供转换以进行概念验证)。

我希望这种快速而粗略地努力提高“旧”文档中字体的可读性的演示能够提供足够的满意度,使其成为可行的答案。

简而言之,这是可能的。如果没有 .tex 文件,诀窍就是对文档图像运行 OCR,将字体重新转换为当今的标准。

相关内容