如何对外文字符进行编码，以便可以在生成的 PDF 文件中搜索它们？

Question 1

你能试一下吗：

\usepackage[T1]{fontenc}

完整测试文档：

\documentclass{article}
\usepackage[utf8]{inputenc}
\usepackage[T1]{fontenc}
\begin{document}
Some foreign characters: öøäéüæåñ
\end{document}

Answer

你能试一下吗：

\usepackage[T1]{fontenc}

完整测试文档：

\documentclass{article}
\usepackage[utf8]{inputenc}
\usepackage[T1]{fontenc}
\begin{document}
Some foreign characters: öøäéüæåñ
\end{document}

Question 2

尽管我无法给出可行的解决方案，但我想解释问题根源所在。

就像 Crissov 在他的评论中推测的那样，这与您使用的阅读器应用程序有很大关系。就我而言奥克拉尔甚至找不到öaéuåñ 里面单词。例如，我使用了：

\documentclass{article}
\usepackage{fontspec}
\setmainfont[Ligatures=TeX]{STIXGeneral}
\XeTeXinputnormalization=1 %or 2
\begin{document}
Töst Tøst Täst Tést Tüst Tæst Tåst Testeñ
\end{document}

使用时\XeTeXinputnormalization=1，我根本找不到特殊字符，而使用时，我搜索的是常规字符。如果我设置\XeTeXinputnormalization=2，至少我会To在中找到。但我仍然在中Töst找不到和。TostToTøst

这种行为的原因是奥克拉尔正在进行相当精确的比较，更重要的是，字符之间存在很大差异ö（ø这导致了您的问题）：

ö(U+00F6) 分解为一个基本字符o(U+006F) 和一个与之关联的重音符号̈(U+0308)。虽然您可以编写o̷(U+006F U+0337)，并且它通常会显示为ø，但它与 (U+00F8) 无关ø，并且在 unicode 范式之间转换时不会转换它。æ它与相同ø。您提到的所有其他字符都有关联的分解。（请参阅unicode字符分解映射以供参考。）

因此，您的阅读器应用程序似乎做了明智的事情，不仅考虑实际字符，还考虑其分解的基本字符。对于其他的等等ø，æ对它的期望实在是太高了。

您可能可以将所有内容转换ø为图像，并在其后面放置一个不可见的文字o，就像使用 OCR 对扫描的 PDF 所做的那样。但是，除了这是一个丑陋的解决方案之外，如果您输入实际的文字，您将无法找到该词ø...

Answer