无法在输出 PDF 中搜索包含罗马尼亚字符的单词

Question

不幸的是，T1 编码没有带有下方逗号的罗马尼亚字符 s 和 t，因此通过在普通 s 或 t 下方放置逗号来伪造它们。

其结果是“ș”和“ț”这两个字符实际上并不存在。

一种可能的解决方法（但有很多限制）是切换到 UTF-8 并使用包accsupp：

\documentclass[a4paper]{article}
\usepackage[T1]{fontenc}
\usepackage[utf8]{inputenc}
\usepackage[romanian]{babel}
\usepackage[unicode]{hyperref}
\usepackage{newunicodechar}
\usepackage{accsupp}

% Define code for the Romanian characters
\newunicodechar{Ș}{%
  \BeginAccSupp{method=hex,unicode,ActualText=0218}%
    \textcommabelow S%
  \EndAccSupp{}%
}
\newunicodechar{ș}{%
  \BeginAccSupp{method=hex,unicode,ActualText=0219}%
    \textcommabelow s%
  \EndAccSupp{}%
}
\newunicodechar{Ț}{%
  \BeginAccSupp{method=hex,unicode,ActualText=021A}%
    \textcommabelow T%
  \EndAccSupp{}%
}
\newunicodechar{ț}{%
  \BeginAccSupp{method=hex,unicode,ActualText=021B}%
    \textcommabelow t%
  \EndAccSupp{}%
}
\makeatletter
\ProvideTextCommandDefault\textcommabelow[1]
  {\hmode@bgroup\ooalign{\null#1\crcr\hidewidth
     \raise-.31ex\hbox{\check@mathfonts
                       \fontsize\ssf@size\z@
                       \math@fontsfalse\selectfont,}\hidewidth}\egroup}
\makeatother

\begin{document}

știință

\end{document}

如果您编译此（以 UTF-8 保存）编码，那么一些 PDF 查看器（我尝试了 Adobe Reader 9）将识别这些字符。

Answer 1

不幸的是，T1 编码没有带有下方逗号的罗马尼亚字符 s 和 t，因此通过在普通 s 或 t 下方放置逗号来伪造它们。

其结果是“ș”和“ț”这两个字符实际上并不存在。

一种可能的解决方法（但有很多限制）是切换到 UTF-8 并使用包accsupp：

\documentclass[a4paper]{article}
\usepackage[T1]{fontenc}
\usepackage[utf8]{inputenc}
\usepackage[romanian]{babel}
\usepackage[unicode]{hyperref}
\usepackage{newunicodechar}
\usepackage{accsupp}

% Define code for the Romanian characters
\newunicodechar{Ș}{%
  \BeginAccSupp{method=hex,unicode,ActualText=0218}%
    \textcommabelow S%
  \EndAccSupp{}%
}
\newunicodechar{ș}{%
  \BeginAccSupp{method=hex,unicode,ActualText=0219}%
    \textcommabelow s%
  \EndAccSupp{}%
}
\newunicodechar{Ț}{%
  \BeginAccSupp{method=hex,unicode,ActualText=021A}%
    \textcommabelow T%
  \EndAccSupp{}%
}
\newunicodechar{ț}{%
  \BeginAccSupp{method=hex,unicode,ActualText=021B}%
    \textcommabelow t%
  \EndAccSupp{}%
}
\makeatletter
\ProvideTextCommandDefault\textcommabelow[1]
  {\hmode@bgroup\ooalign{\null#1\crcr\hidewidth
     \raise-.31ex\hbox{\check@mathfonts
                       \fontsize\ssf@size\z@
                       \math@fontsfalse\selectfont,}\hidewidth}\egroup}
\makeatother

\begin{document}

știință

\end{document}

如果您编译此（以 UTF-8 保存）编码，那么一些 PDF 查看器（我尝试了 Adobe Reader 9）将识别这些字符。

无法在输出 PDF 中搜索包含罗马尼亚字符的单词

答案1

相关内容