我有时会阅读用芬兰语编写的 pdf 文件。我无法通过 Xpdf 和 Okular 搜索包含字母 ä 和 ö 的文本。有没有可以正确找到这些字母的 PDF 阅读器?我的文件 eliisanet.fi/matti.t.lehtinen/Geom2011.pdf 有问题。
答案1
我正在使用 Evince,并且每隔一段时间就必须阅读德语。 Evince 正确找到 ö 和 ä(以及其他德语特殊字符,如 ß)。
我确实为这些字符提供了特殊的键盘快捷键(使用正确的元键),但如果您的键盘无法生成它们,您也可以将它们复制并粘贴到搜索字段中。
但要记住的一件事是,可以创建一个输出看起来像 ä 的 PDF,但图形由单独的“ä”和“¡”(单独的分音符/元音变音)组成。在这种情况下,您将无法通过搜索重音字符找到它。因此,在切换查看器之前,请尝试在实际 PDF 中仅查找“a”和“o”。
如果您使用 then 查看文件中pdfedit
突出显示的部分(抱歉,它有点小,它位于文档的第 2 页):
编码位于这样的数组中:
正如您所看到的,分音符和“o”(来自第一个字段)之间几乎没有联系,偏移量将其放置在那里,这不是您可以自动化的“简单”UTF16 到 UTF-8 或其他字符编码转换。
如果文本中没有太多数学内容,您可以尝试渲染为图像,然后进行 OCR,但在这种情况下,我认为您最好尝试联系作者并获取原始(可能是 LaTeX)源(如果您需要搜索)在文字中。