我正在尝试从 PDF 复制文本，但出现乱码

2024-6-13 • tag-icon

ubuntu pdf encoding

我正在尝试从 PDF 复制文本，但出现乱码

我正在尝试复制文本来自 PDF 文件，但我得到的是垃圾。我在 Ubuntu 上使用文档阅读器阅读文档。并不是它不允许我复制，只是复制的文本如下所示：

RFRPSLOHJFFDUSVQLIIHUFRDUSVQLIIOSFDS    

5XQDVURRW

LQFOXGHSFDSK!
LQFOXGHVWGOLEK!
LQFOXGHVWULQJK!

$53+HDGHUDVVXPLQJ(WKHUQHW,3Y

GH¿QH$53B5(48(67
$535HTXHVW

GH¿QH$53B5(3/<
$535HSO\

W\SHGHIVWUXFWDUSKGU^
XBLQWBWKW\SH
+DUGZDUH7\SH

XBLQWBWSW\SH
3URWRFRO7\SH

XBFKDUKOHQ
+DUGZDUH$GGUHVV/HQJWK

XBFKDUSOHQ
3URWRFRO$GGUHVV/HQJWK

XBLQWBWRSHU
2SHUDWLRQ&RGH

XBFKDUVKD>@
6HQGHUKDUGZDUHDGGUHVV

XBFKDUVSD>@
6HQGHU,3DGGUHVV

XBFKDUWKD>@
7DUJHWKDUGZDUHDGGUHVV

XBFKDUWSD>@
7DUJHW,3DGGUHVV

我该怎么做才能解决这个问题？输入大量数据需要很长时间。

另外，顺便说一下，粘贴的文本在 gedit（Ubuntu）上看起来像这样：

在我的系统上（请注意，粘贴到这个问题中时它看起来有所不同！）

我感觉这在某种程度上是一个编码问题，但我不知道如何解决这个问题。

答案1

底层文本是乱码。我认为@skub 的想法是正确的，这可能是故意的。获取文本的一种方法是将每个页面导出为图像（例如.jpg或者.png），然后使用光学字符识别 (OCR)软件。我能够在 Windows 7 上使用 Adobe Acrobat X 对此进行测试；它成功了。

更新：

如果您的文档查看器具有类似功能，copy with formatting请按预期复制文本。深入挖掘后，我可以确认嵌入的字体全部有一个自定义编码。

相关内容