搜索具有非标准字符编码的 PDF

Question 1

不管怎样，我刚刚用 Mac OS X 10.6.2 上的 Safari 4.0.4 检查了你链接的 PDF，在那里是一些英语，PDF 呈现完美，没有任何屏幕“垃圾”。也许您遇到了 Unicode 问题（在 Windows 上比在 Mac OS 上更常见）？

Answer

福昕阅读器，也许？

不管怎样，我刚刚用 Mac OS X 10.6.2 上的 Safari 4.0.4 检查了你链接的 PDF，在那里是一些英语，PDF 呈现完美，没有任何屏幕“垃圾”。也许您遇到了 Unicode 问题（在 Windows 上比在 Mac OS 上更常见）？

Question 2

解决此问题的最简单方法是打开文件最新版本的 Google Chrome 内置了 PDF 阅读插件。然后您可以使用 Chrome 的搜索功能查找文本，并且复制粘贴可以正常进行。

Answer

解决此问题的最简单方法是打开文件最新版本的 Google Chrome 内置了 PDF 阅读插件。然后您可以使用 Chrome 的搜索功能查找文本，并且复制粘贴可以正常进行。

Question 3

为了电视手册示例：Mac 上的 Adobe Reader 8.1.2 也存在同样的问题，但是不使用 Mac 的预览功能复制或搜索文本时出现问题。此外，将其发送到 Gmail 帐户，然后选择“查看”，再选择“纯 HTML”，即可显示文本。但 Adobe Reader 不喜欢它。

其文档属性显示字体的“编码：自定义”。其他文档显示“编码：Ansi”或“Roman”之类的内容，并且在 Mac 上的预览和 Adobe Reader 中都没有问题：

在此处输入图片描述

然而，两者丽台和斯旺示例在 Mac 上的预览和 Gmail 中也会出现问题，并且都显示“编码：Identity-H”。电话唱片测试也失败，显示“编码：自定义”。

令人困惑，而且不一致，但一些 Adobe 论坛我发现以下解释完后还有显示“编码：自定义”的示例（重点是我的）：

查看 PDF 内部后发现，没有可用的编码信息（无论是在 PDF 中还是在嵌入的字体数据中）来推导文档页面上显示的字符/字形的含义。

字体实际上都是嵌入的，但所有编码信息都被删除了。这是一个典型的 PDF 示例，它在语法上完全符合 PDF 规范，但在制作 PDF 的过程中，有关文本含义的重要信息已被丢弃。据我所知，恢复编码信息非常困难。

这并不能解释为什么 Mac 的预览版（和显然当 Adobe Reader 出现故障时，即使使用“编码：自定义”，Infix 也能处理一些示例。也许当计算机本身恰好存在确切的字体时，预览不会出现问题？或者它只是猜测一种编码，这种编码恰好适用于部分文档，但不是全部文档？

无论是什么原因造成的：如果通过 Google Docs 或 Gmail 传递不起作用，那么最简单（但远非容易）的解决方法确实是保存为 TIFF，然后执行光学字符识别 (OCR). 服务包括印象笔记可能会即时执行（它对图像进行 OCR ；我怀疑它是否会对 PDF 进行 OCR）。

Answer