我尝试用鼠标从该斯洛伐克文档中选择文本:https://fphil.uniba.sk/fileadmin/fif/katedry_pracoviska/sas/Publikacie/Foneticka_prirucka.pdf。
在浏览器(Chromium)和 Okular 中,我选择的字符很奇怪。
当我从该文档中提取 Okular 中的文本时,也以不同的方式遇到了无法识别的字符。
编辑:我找到了这个库/工具:https://pypi.org/project/multilingual-pdf2text/ 这可能对我有帮助,但我不知道如何使用它。
是否有办法从该文档中提取具有正确识别字符的文本?