将未连字符的文本放置在 OCR 层中

将未连字符的文本放置在 OCR 层中

我在读为什么从编译的pdf复制时“fi”不能分开?并有一个想法:

我知道 v1.4 及更高版本的 PDF 文档有一个 OCR 层。是否可以让 PDFTeX 或 luaTeX 将未连字符的文本放入 OCR 层,这样复制连字符时就不会出现不一致或奇怪的行为?

我还想到,这也是解决我在复制数学模式希腊字符时遇到的问题的一种解决方法,讨论于在英文文档中正确使用希腊字母的方法。这似乎也是为方程式提供更易于访问的代码的理想方式,因为现在尝试复制它们并不是很有用。

答案1

您可以使用两种可能的工具来实现您的目标:

第一个是calibre-电子书,它可以进行 pdf 到 pdf 的转换,以及大量其他格式的转换。

第二个是 Heiko Oberdiek 的实验性软件包accsupp。它可让您将替代项映射到字符和文本以实现可访问性,但也能实现您想要的效果。归根结底,我认为我们是时候停止使用连字符了。它们在改善屏幕上的排版方面没有多大用处。

以下示例取自包。您需要进行调整以适应。

\documentclass{article}
\usepackage[unicode]{hyperref}
\usepackage{accsupp}[2007/11/14]
\begin{document}
  \begin{equation}
    \BeginAccSupp{
      method=pdfstringdef,
      unicode,
      ActualText={%
        a\texttwosuperior +b\texttwosuperior
        =c\texttwosuperior
      }
    }
    a^2 + b^2 = c^2
    \EndAccSupp{}
  \end{equation}
\end{document} 

您建议将其映射到 OCR 层,除非您扫描并对其进行 OCR,否则这是不可能的PDF。总之,从开始calibre-ebook,如果它不能提供您想要的东西,请探索其他选项。

相关内容