有哪些好的方法可以使 pdflatex 输出可复制和粘贴？

Question 1

你知道 cmap 软件包吗（看看CTAN:cmap)？它会帮你完成这些。将其\usepackage{cmap}作为第一个包加载。

更新：我做了一些研究，发现了一些关于如何使用cmap或的提示mmap。结果:cmap并且mmap无法处理基于虚拟字体（文件*.vf或*.vpl字体目录中的字体）。因此，如果您使用的字体需要虚拟字体cmap或mmap无法工作。您最好使用glyphtounicode。这暗示可能会有用。

顺便说一句：cmap基于 Adobe 的字符映射。请参阅 PDF 参考版本 1.6了解更多信息。

更新2：texdoc encguide您将获得一份描述 T1 Cork 编码的文档。您将在其中找到一个表格，其中显示了您可以直接写入 pdf 文件的所有字形。因为ä您可以在 pdf 文件中找到一个字形ä。如果没有字形，äLaTeX 必须用两个字符来构建它："a。您将ä在 pdf 文件中看到它，但找不到它（搜索"a可能会有所帮助；复制和粘贴会将其返回给您）。

更新 3：glyphtounicode仅支持 T1 编码，cmap支持更多编码。的一个优点glyphtounicode是，可以使用一个命令添加更多尚未包含在官方列表中的字形。有关更多信息，\glyphtounicode请参见此处：tb91thanh-字体.pdf. 确保glyphtounicode.tex从获取最新版本LCDF 型软件看看此警告如何正确使用它。

Answer

你知道 cmap 软件包吗（看看CTAN:cmap)？它会帮你完成这些。将其\usepackage{cmap}作为第一个包加载。

更新：我做了一些研究，发现了一些关于如何使用cmap或的提示mmap。结果:cmap并且mmap无法处理基于虚拟字体（文件*.vf或*.vpl字体目录中的字体）。因此，如果您使用的字体需要虚拟字体cmap或mmap无法工作。您最好使用glyphtounicode。这暗示可能会有用。

顺便说一句：cmap基于 Adobe 的字符映射。请参阅 PDF 参考版本 1.6了解更多信息。

更新2：texdoc encguide您将获得一份描述 T1 Cork 编码的文档。您将在其中找到一个表格，其中显示了您可以直接写入 pdf 文件的所有字形。因为ä您可以在 pdf 文件中找到一个字形ä。如果没有字形，äLaTeX 必须用两个字符来构建它："a。您将ä在 pdf 文件中看到它，但找不到它（搜索"a可能会有所帮助；复制和粘贴会将其返回给您）。

更新 3：glyphtounicode仅支持 T1 编码，cmap支持更多编码。的一个优点glyphtounicode是，可以使用一个命令添加更多尚未包含在官方列表中的字形。有关更多信息，\glyphtounicode请参见此处：tb91thanh-字体.pdf. 确保glyphtounicode.tex从获取最新版本LCDF 型软件看看此警告如何正确使用它。

Question 2

由于您没有提供最小示例，我不确定这是否真的解决了您的问题。您尝试过加载glyphtounicode.tex吗？

\documentclass{article}
\usepackage[T1]{fontenc}
\usepackage[utf8]{inputenc}

\input glyphtounicode
\pdfgentounicode=1

\begin{document}

ff ffi ffl ä ü ö ß

auffallen

\end{document}

但是，即使不使用glyphtounicode，pdftotext我的系统也会生成 unicode 文本。使用glyphtounicode，连字符会被取消连字符。

Answer

由于您没有提供最小示例，我不确定这是否真的解决了您的问题。您尝试过加载glyphtounicode.tex吗？

\documentclass{article}
\usepackage[T1]{fontenc}
\usepackage[utf8]{inputenc}

\input glyphtounicode
\pdfgentounicode=1

\begin{document}

ff ffi ffl ä ü ö ß

auffallen

\end{document}

但是，即使不使用glyphtounicode，pdftotext我的系统也会生成 unicode 文本。使用glyphtounicode，连字符会被取消连字符。

Question 3

如果您正在使用memoir，则可以使用选项编译文档ms。输出就像用打字机写的东西，但由于没有连字符，因此很容易复制和粘贴文本以便在其他程序（例如 Word 或 LibreOffice Writer）中重复使用。

我经常使用此选项作为一种快速而简单的方法将 LaTeX 文档中的文本导入 Word。

由于回忆录在 -模式下使用 1.5 倍行距ms，因此将每页的行数设置为不会填满页面的数字非常重要。

一位 MWE 表示：

\documentclass{ms,article}{memoir}
\usepackage[T1]{fontenc}
\usepackage[utf8]{inputenc}
\usepackage{lipsum}

\input{glyphtounicode}
\pdfgentounicode=1

\setulmargins{*}{*}{1,5}
\setlength{\textheight}{32\baselineskip}
\checkandfixthelayout[lines]


\begin{document}

\lipsum[1-21]

\end{document}

编辑：user14996 询问：为什么glyphtounicode使用 fontenc-line 时输出或粘贴行为没有区别？

答案是：这取决于您的字体。我使用MinionPro，它使用小写数字 ( oldstylenums) 作为标准。我还使用间隔小写字母。加载glyphtounicode但不加载时 fontenc，挪威字符 (æøå ÆØÅ) 无法从 PDF 文件中正确复制。另一方面，所有数字和小写字母都可以复制和粘贴。如果我做相反的事情，删除glyptounicode但保留fontenc，数字就会变成希腊字符，小写字母就会消失。此外，所有连字符 (fi ffi fj) 都会消失。

使用cmap代替glyphtounicode没有帮助。

所以答案是，有时fontenc是您唯一需要的包，但如果您使用字体中的特殊功能（小型大写字母、旧式数字等），而这些功能需要虚拟字体，则需要加载 glyphtounicode。cmap不支持虚拟字体。有时甚至不能解决glyphtounicode所有问题。

Answer