我正在尝试复制文本来自 PDF 文件,但我得到的是垃圾。我在 Ubuntu 上使用文档阅读器阅读文档。并不是它不允许我复制,只是复制的文本如下所示:
RFRPSLOHJFFDUSVQLIIHUFRDUSVQLIIOSFDS
5XQDVURRW
LQFOXGHSFDSK!
LQFOXGHVWGOLEK!
LQFOXGHVWULQJK!
$53+HDGHUDVVXPLQJ(WKHUQHW,3Y
GH¿QH$53B5(48(67
$535HTXHVW
GH¿QH$53B5(3/<
$535HSO\
W\SHGHIVWUXFWDUSKGU^
XBLQWBWKW\SH
+DUGZDUH7\SH
XBLQWBWSW\SH
3URWRFRO7\SH
XBFKDUKOHQ
+DUGZDUH$GGUHVV/HQJWK
XBFKDUSOHQ
3URWRFRO$GGUHVV/HQJWK
XBLQWBWRSHU
2SHUDWLRQ&RGH
XBFKDUVKD>@
6HQGHUKDUGZDUHDGGUHVV
XBFKDUVSD>@
6HQGHU,3DGGUHVV
XBFKDUWKD>@
7DUJHWKDUGZDUHDGGUHVV
XBFKDUWSD>@
7DUJHW,3DGGUHVV
我该怎么做才能解决这个问题?输入大量数据需要很长时间。
另外,顺便说一下,粘贴的文本在 gedit(Ubuntu)上看起来像这样:
(请注意,粘贴到这个问题中时它看起来有所不同!)
我感觉这在某种程度上是一个编码问题,但我不知道如何解决这个问题。
答案1
底层文本是乱码。我认为@skub 的想法是正确的,这可能是故意的。获取文本的一种方法是将每个页面导出为图像(例如.jpg或者.png),然后使用光学字符识别 (OCR)软件。我能够在 Windows 7 上使用 Adobe Acrobat X 对此进行测试;它成功了。
更新:
如果您的文档查看器具有类似功能,copy with formatting
请按预期复制文本。深入挖掘后,我可以确认嵌入的字体全部有一个自定义编码。