如何使 LaTeX-PDF 像 Word-PDF 一样“机器可读”

如何使 LaTeX-PDF 像 Word-PDF 一样“机器可读”

我正在使用 LaTeX 排版我的简历。现在许多公司并不亲自阅读申请人的简历,而是使用软件扫描其中的关键词和短语。我觉得,用这些软件生成的 LaTeX 文件比用常用的所见即所得文字处理器生成的 PDF 输出文件更难读。有人知道它们之间是否存在差异,以及如何提高 LaTeX-PDF 的“机器可读性”吗?

我最近在一款应用中遇到了这个问题,我的简历(软件读取的)在线显示,但无法阅读。不幸的是,我无法再访问这款应用,因此无法给出真实的例子。我记得很多重音字符完全无法阅读,很多单词连在一起,在这种情况下,软件无法将它们识别为单个单词。

答案1

回答你的问题的第一部分(有人知道是否确实存在差异),是的,有区别,这里举一个例子。

\documentclass{article}
\begin{document}
I am an eager office worker!
\end{document}

将其编译为 PDF 将产生一个非常简单的文档。如果您现在使用 Acrobat Reader 搜索“office”,您将看到该程序找不到该作品。将整个文本从 PDF 复制并粘贴到 LibreOffice 中将产生:

 I am an eager oce worker!

由于印刷原因,pdflatex 将“ffi”合并到所用字体的单个元素中,从而导致了问题。

现在让我们尝试一些不同的东西:如果我们使用标准的 Windows/Linux,也许不会使用特殊符号来表示“ffi”。所以让我们使用其中之一。

\documentclass{article}
\usepackage{fontspec}
\setmainfont{Arial}
\begin{document}
I am an eager office worker!
\end{document}

现在必须使用 lualatex 进行编译,而“Arial”可能不是 CV 的最佳选择。但是,这只是一个例子。从生成的 PDF 中复制并粘贴到 LibreOffice 中,现在会产生:

 I am an eager office worker!

现在“办公室”已正确显示。

可能还存在一些无需切换到原生字体即可实现相同效果的软件包。

相关内容