复制粘贴时 PDF 出现乱码

复制粘贴时 PDF 出现乱码

我正在尝试从 PDF 文件中复制并粘贴文本。

但是,每当我粘贴原文时,它都是一堆乱码。文本如下所示(这只是其中的一小段摘录):

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03! 
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$! 
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40! 
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'! 
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40! 
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(! 
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97! 
)*+*+, C<88,?>8513AG<5A14, 

我在 Adob​​e 和 Foxit PDF 阅读器中都试过了。我在 Adob​​e Reader 中执行了“另存为文本”操作,结果得到的文本文件还是乱码。

有什么想法可以让我让这些文本不乱码吗?(除了手动输入之外……还有很多文本需要提取。)

答案1

解决此问题的最简单方法是打开文件最新版本的 Google Chrome 内置了 PDF 阅读插件。然后您可以使用 Chrome 的搜索功能查找文本,并且复制粘贴可以正常进行。

我想投票赞成 pipitas 对 Shiki 的回答的评论,但我没有信用 :( 问题可能是自定义字体编码,不加密在 Acrobat 中,单击文件 -> 属性,然后单击字体选项卡查看编码,单击安全选项卡查看是否已加密。

答案2

对我有用的解决方案:

  • 将文档上传至 Google Drive/Docs
  • Google 将以 PDF 格式导入(自 2013 年起)
  • 打开 PDF 视图并选择文件>打开用>谷歌文档
  • 导出文档大约需要一分钟

结果并不完美,但已经完成了 80%,并且提供了足够的文本,让我不需要重写所有内容!

答案3

我在创建的 PDF 中发现了这个问题,并且我相信我找到了问题的根源:使用 Mac OS X 的预览来减小 PDF 文件大小。

我使用 Colorsync Utility 创建了一些 Quartz 过滤器来压缩 PDF 中的图像,以减少包含图像的 PDF 的整体文件大小。如下所述:http://www.macosxhints.com/article.php?story=20031106133852693

我发现我可以轻松地从原始(未压缩的)PDF 文件中复制和粘贴文本,但是在通过我创建的“减小文件大小”过滤器运行该 PDF 之后,生成的压缩 PDF 无法清晰地复制粘贴(看起来像您发布的字符串)。

但是,通过 Adob​​e Acrobat Pro 的“文档”>“减小文件大小”功能运行相同的原始 PDF,生成的压缩 PDF 可以成功复制和粘贴文本。

因此,如果您的 PDF 文件是从其他地方收到的,并且您无法获取原始版本,如果它确实以某种方式被压缩,那么这对您来说并不是完全有帮助的。但这可能是原因 - 为了减小文件大小,文件以某种方式被破坏了。

这对于在从 PDF 复制和粘贴文本时遇到类似问题的内容创建者可能会很有用 - 请小心使用 OS X Quartz 过滤器缩小您的 PDF!

--编辑-- 在使用预览合并 PDF 时,我也注意到了这个问题。两个源 PDF 可以正常复制和粘贴,但将页面从一个文件拖到另一个文件,然后保存合并的 PDF 时,无法复制/粘贴合并文档中的文本。这两个文档都是使用 Mac 上的 Filemaker Pro 11 同时生成的 - 我无法想象它们会有不同的编码或类似的东西。

答案4

已解决:(适用于 Windows 8、Acrobat XI、Office 2010)

选项1:

  1. 使用“Microsoft XPS Document Writer”从 Acrobat 打印输出为:“您的文件名.oxps”
  2. 使用 XPS Viewer 打开“...oxps”。*(请参阅下面评论中的下载链接)
  3. 打印为 PDF(Acrobat PDF 或 CutePDF),使用最高分辨率(600 DPI)。
  4. 使用 Acrobat 打开并使用 OCR(可搜索图像(精确))选项。

答对了!

评论:

  • 使用最高分辨率和可搜索图像(精确)将保存您的文本,而不会失去其干净的外观。低分辨率将使您的文本可读,但看起来很糟糕。
  • 下载 Microsoft XPS(文件): http://www.microsoft.com/en-us/download/details.aspx?id=11816
  • 如果您不知道什么是 OCR,或者在哪里可以找到可搜索图像(精确),或者如何使用“Microsoft XPS Document Writer”打印,请自行使用 Google 搜索,以获得最佳体验。

*仅当您未安装 XPS 时才下载。

选项 2:

做类似的事情,但保存为图像(png,tiff,...),然后您必须将所有页面合并到一个“PDF”文件中。

相关内容