我正在尝试从 PDF 文件中复制并粘贴文本。
但是,每当我粘贴原文时,它都是一堆乱码。文本如下所示(这只是其中的一小段摘录):
4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03!
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$!
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40!
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'!
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40!
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(!
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97!
)*+*+, C<88,?>8513AG<5A14,
我在 Adobe 和 Foxit PDF 阅读器中都试过了。我在 Adobe Reader 中执行了“另存为文本”操作,结果得到的文本文件还是乱码。
有什么想法可以让我让这些文本不乱码吗?(除了手动输入之外……还有很多文本需要提取。)
答案1
解决此问题的最简单方法是打开文件最新版本的 Google Chrome 内置了 PDF 阅读插件。然后您可以使用 Chrome 的搜索功能查找文本,并且复制粘贴可以正常进行。
我想投票赞成 pipitas 对 Shiki 的回答的评论,但我没有信用 :( 问题可能是自定义字体编码,不加密在 Acrobat 中,单击文件 -> 属性,然后单击字体选项卡查看编码,单击安全选项卡查看是否已加密。
答案2
对我有用的解决方案:
- 将文档上传至 Google Drive/Docs
- Google 将以 PDF 格式导入(自 2013 年起)
- 打开 PDF 视图并选择文件>打开用>谷歌文档
- 导出文档大约需要一分钟
结果并不完美,但已经完成了 80%,并且提供了足够的文本,让我不需要重写所有内容!
答案3
我在创建的 PDF 中发现了这个问题,并且我相信我找到了问题的根源:使用 Mac OS X 的预览来减小 PDF 文件大小。
我使用 Colorsync Utility 创建了一些 Quartz 过滤器来压缩 PDF 中的图像,以减少包含图像的 PDF 的整体文件大小。如下所述:http://www.macosxhints.com/article.php?story=20031106133852693
我发现我可以轻松地从原始(未压缩的)PDF 文件中复制和粘贴文本,但是在通过我创建的“减小文件大小”过滤器运行该 PDF 之后,生成的压缩 PDF 无法清晰地复制粘贴(看起来像您发布的字符串)。
但是,通过 Adobe Acrobat Pro 的“文档”>“减小文件大小”功能运行相同的原始 PDF,生成的压缩 PDF 可以成功复制和粘贴文本。
因此,如果您的 PDF 文件是从其他地方收到的,并且您无法获取原始版本,如果它确实以某种方式被压缩,那么这对您来说并不是完全有帮助的。但这可能是原因 - 为了减小文件大小,文件以某种方式被破坏了。
这对于在从 PDF 复制和粘贴文本时遇到类似问题的内容创建者可能会很有用 - 请小心使用 OS X Quartz 过滤器缩小您的 PDF!
--编辑-- 在使用预览合并 PDF 时,我也注意到了这个问题。两个源 PDF 可以正常复制和粘贴,但将页面从一个文件拖到另一个文件,然后保存合并的 PDF 时,无法复制/粘贴合并文档中的文本。这两个文档都是使用 Mac 上的 Filemaker Pro 11 同时生成的 - 我无法想象它们会有不同的编码或类似的东西。
答案4
已解决:(适用于 Windows 8、Acrobat XI、Office 2010)
选项1:
- 使用“Microsoft XPS Document Writer”从 Acrobat 打印输出为:“您的文件名.oxps”
- 使用 XPS Viewer 打开“...oxps”。*(请参阅下面评论中的下载链接)
- 打印为 PDF(Acrobat PDF 或 CutePDF),使用最高分辨率(600 DPI)。
- 使用 Acrobat 打开并使用 OCR(可搜索图像(精确))选项。
答对了!
评论:
- 使用最高分辨率和可搜索图像(精确)将保存您的文本,而不会失去其干净的外观。低分辨率将使您的文本可读,但看起来很糟糕。
- 下载 Microsoft XPS(文件): http://www.microsoft.com/en-us/download/details.aspx?id=11816
- 如果您不知道什么是 OCR,或者在哪里可以找到可搜索图像(精确),或者如何使用“Microsoft XPS Document Writer”打印,请自行使用 Google 搜索,以获得最佳体验。
*仅当您未安装 XPS 时才下载。
选项 2:
做类似的事情,但保存为图像(png,tiff,...),然后您必须将所有页面合并到一个“PDF”文件中。