(编辑:不知何故,我在按下悬赏按钮之前对这个问题所做的补充丢失了。向那些已经部分回答的人致歉。)
我偶尔会碰到大约 20-25 年前用 LaTeX 编写的旧论文,例如:
- 这个:使用 Aladdin GhostScript 制作成 PDF;所以可能是 tex->dvi->ps->pdf 或类似的东西。
- 这个:tex->dvi->ps->pdf,使用 dvips,然后使用适用于 Windows 的 Acrobat Distiller 3.01
无论如何,我尝试过的几款 PDF 阅读器的屏幕可读性通常很差。是否可以以某种方式重新处理文件以改善它?
具体来说,是否有可能...
- 操纵/调整位图字体以提高其可读性?
- 确定使用哪种字体(系列、粗细、大小) - 假设它是最常用的字体之一而不是深奥的东西 - 并用可扩展的、暗示的字体字形替换位图字体字形?
- 提取单词/行的文本并使用更清晰的字体重新排版?
当然,如果作者可以联系到并且有源代码,您可以直接找到他们然后重建(嗯,有点);但我们假设这不是一个选择,我们只有 PDF 可以使用。
以下是有关两个示例文件中的字体的更多信息:
$ pdffonts P29.pdf
name type encoding emb sub uni object ID
------------------------------------ ----------------- ---------------- --- --- --- ---------
[none] Type 3 Custom yes no no 173 0
[none] Type 3 Custom yes no no 166 0
Courier Type 1 Standard no no no 471 0
Courier Type 1 Standard no no no 470 0
Helvetica Type 1 Standard no no no 122 0
[none] Type 3 Custom yes no no 123 0
$ pdffonts ng.pdf
name type encoding emb sub uni object ID
------------------------------------ ----------------- ---------------- --- --- --- ---------
[none] Type 3 Custom yes no no 4 0
[none] Type 3 Custom yes no no 5 0
[none] Type 3 Custom yes no no 6 0
[none] Type 3 Custom yes no no 7 0
[none] Type 3 Custom yes no no 8 0
[none] Type 3 Custom yes no no 9 0
Helvetica-Bold Type 1 Standard no no no 15 0
Times-Bold Type 1 Standard no no no 16 0
Times-Italic Type 1 Standard no no no 17 0
Times-BoldItalic Type 1 Standard no no no 18 0
[none] Type 3 Custom yes no no 22 0
[none] Type 3 Custom yes no no 23 0
[none] Type 3 Custom yes no no 24 0
[none] Type 3 Custom yes no no 28 0
[none] Type 3 Custom yes no no 29 0
Times-Roman Type 1 Custom no no no 52 0
Times-Italic Type 1 Custom no no no 53 0
Times-BoldItalic Type 1 Custom no no no 54 0
[none] Type 3 Custom yes no no 55 0
答案1
我截取了文档的第一页。我在 macOS 上的预览中打开了它。我截取了该页面的屏幕截图(没有页码)。我使用屏幕截图在预览中创建了一个新文档。我将文档另存为 PDF。我将 PDF 上传到 GDrive。我使用 Google Docs 打开了该文件。我打开了 Google Docs 文件并将其打印回 PDF。以下是结果图。
这是一种草率而粗略的做法。列顺序丢失了。我认为,通过更加关注快照(即一次拍摄一列)和/或使用专业级应用程序,可以显著改善这个问题,避免这个问题。为此,我尝试在源 PDF 及其打印的 PDF 副本上使用 PDFElement 6 Pro。转换仅捕获了页码。测试应用程序的 OCR 选项需要付费(Google 免费提供转换以进行概念验证)。
我希望这种快速而粗略地努力提高“旧”文档中字体的可读性的演示能够提供足够的满意度,使其成为可行的答案。
简而言之,这是可能的。如果没有 .tex 文件,诀窍就是对文档图像运行 OCR,将字体重新转换为当今的标准。