使用鼠标从 PDF 中选择会产生奇怪的字符

使用鼠标从 PDF 中选择会产生奇怪的字符

我尝试用鼠标从该斯洛伐克文档中选择文本:https://fphil.uniba.sk/fileadmin/fif/katedry_pracoviska/sas/Publikacie/Foneticka_prirucka.pdf

在浏览器(Chromium)和 Okular 中,我选择的字符很奇怪。

当我从该文档中提取 Okular 中的文本时,也以不同的方式遇到了无法识别的字符。

编辑:我找到了这个库/工具:https://pypi.org/project/multilingual-pdf2text/ 这可能对我有帮助,但我不知道如何使用它。

是否有办法从该文档中提取具有正确识别字符的文本?

相关内容