我正在尝试从 PDF 复制文本,但出现乱码

我正在尝试从 PDF 复制文本,但出现乱码

我正在尝试复制文本来自 PDF 文件,但我得到的是垃圾。我在 Ubuntu 上使用文档阅读器阅读文档。并不是它不允许我复制,只是复制的文本如下所示:

RFRPSLOHJFFDUSVQLIIHUFRDUSVQLIIOSFDS    

5XQDVURRW

LQFOXGHSFDSK!
LQFOXGHVWGOLEK!
LQFOXGHVWULQJK!

$53+HDGHUDVVXPLQJ(WKHUQHW,3Y

GH¿QH$53B5(48(67
$535HTXHVW

GH¿QH$53B5(3/<
$535HSO\

W\SHGHIVWUXFWDUSKGU^
XBLQWBWKW\SH
+DUGZDUH7\SH

XBLQWBWSW\SH
3URWRFRO7\SH

XBFKDUKOHQ
+DUGZDUH$GGUHVV/HQJWK

XBFKDUSOHQ
3URWRFRO$GGUHVV/HQJWK

XBLQWBWRSHU
2SHUDWLRQ&RGH

XBFKDUVKD>@
6HQGHUKDUGZDUHDGGUHVV

XBFKDUVSD>@
6HQGHU,3DGGUHVV

XBFKDUWKD>@
7DUJHWKDUGZDUHDGGUHVV

XBFKDUWSD>@
7DUJHW,3DGGUHVV

我该怎么做才能解决这个问题?输入大量数据需要很长时间。

另外,顺便说一下,粘贴的文本在 gedit(Ubuntu)上看起来像这样:

在我的系统上 (请注意,粘贴到这个问题中时它看起来有所不同!)

我感觉这在某种程度上是一个编码问题,但我不知道如何解决这个问题。

答案1

底层文本是乱码。我认为@skub 的想法是正确的,这可能是故意的。获取文本的一种方法是将每个页面导出为图像(例如.jpg或者.png),然后使用光学字符识别 (OCR)软件。我能够在 Windows 7 上使用 Adob​​e Acrobat X 对此进行测试;它成功了。

更新:

如果您的文档查看器具有类似功能,copy with formatting请按预期复制文本。深入挖掘后,我可以确认嵌入的字体全部有一个自定义编码

相关内容