创建适合自动​​文本提取的 PDF(简历)

创建适合自动​​文本提取的 PDF(简历)

我已经创建了一份漂亮的 LaTeX 简历。

然而,将其上传到在线求职后,我担心自动提取的效果不佳。

是否有任何特定的软件包或其他技巧可以提高 PDF 文件的机器可读性(特别是为了制作简历)?

我使用的是多列,这会使提取变得混乱。禁用多列很容易,但我无法将内容放到两边。有没有办法让多列输出易于提取以供自动化系统使用?

是否有人有策略来维护两个版本的简历,一个是机器可读的,一个是排版用于打印的?有没有办法将某种“替代文本”附加到这些系统会拾取的 PDF 中?问题是,在提交申请时,无法知道他们是否会使用自动特征提取。

最大的问题是提取的文本似乎没有空格(allthewordscomeouttogether)。 有什么方法可以强制 LaTeX 在文本中包含空格字符?

答案1

正如您提到的,您的问题与之相关multicol(但没有给出 ME),我做了一个快速测试:

\documentclass{article}

\usepackage{multicol,lipsum}

\begin{document}
\begin{multicols}{2}
\lipsum[2]
\end{multicols}
\end{document}

如果你运行这个程序,pdftex你会得到以下 pdf,你可以看到,选择左栏材料或其中的部分内容没有任何问题,就像我做的那样(至少在 Acrobat 中):

在此处输入图片描述

当我将选定的文本粘贴回某个编辑器时,我得到:

Nam dui ligula, fringilla a, euismod
sodales, sollicitudin vel, wisi. Morbi
auctor lorem non justo. Nam lacus
libero, pretium at, lobortis vitae, ul-
tricies et, tellus. Donec aliquet, tortor
sed accumsan bibendum, erat ligula

即所有空格都在那里(或者更确切地说,提取器正确地推断出它们)。所以我想你需要更精确地说明你正在做的事情以及结果是什么,这样别人才能帮助你。

至于自动提取:我想这真的取决于软件的智能程度。如上例所示,pdf 中的结构足够丰富,可以正确解释,例如,如果您在 Acrobat 中打开阅读模式,那么您将以正确的顺序而不是屏幕顺序听到正确的单词。

关于空格:TeX 不输出空格字符,而是输出定位命令,这些命令会移动到单词边界的新位置(考虑到它确实有对齐功能,这并不奇怪),并且实际上没有任何方法可以解决这个问题。但对于提取软件来说,这应该不是问题(理论上)。

答案2

我刚刚发现pdf2htmlEX这可能会解决我的一些问题。不过,我仍然有兴趣听听其他的可能性。

相关内容