将 BibTeX 标题字段中的 LaTeX 命令转换为 UTF-8?

将 BibTeX 标题字段中的 LaTeX 命令转换为 UTF-8?

过去两天我一直在谷歌搜索并下载不同的软件,但没有什么进展。有人向我推荐了这个网站,它看起来是一个很好的资源。希望我能得到我需要的答案。

我正在为一家大型研究型大学编写出版物合集。该项目主要围绕收集简历和将每条引文提取到解析器进行。我们的目标是在 8 月底之前建立一个包含所有这些内容的数据库。

我们在处理一些教师的出版物时遇到了问题,他们的大部分出版物都在外部数据库中。我们成功提取了大部分出版物(使用 BibTeX --> JabRef 并导出为特定引文格式),但我们在正确显示这些 LaTeX 字符方面遇到了困难。

例如:

我们发现此出版物: http://prd.aps.org/abstract/PRD/v83/i9/e091101

我们抓取 BibTeX,它看起来像:

@Article{PhysRevD.83.091101,
   title = {Searches for the baryon- and lepton-number violating decays $B\rightarrow{}\Lambda{}c+l-$, $B-\rightarrow{}\Lambda{}l-$, and $B-\rightarrow{}\Lambda{}\ifmmode\bar\else\textasciimacron\fi{}l-$},
   collaboration = {<emph type="italic">BABAR</emph> Collaboration},
   author = {del Amo Sanchez, P. and others},
   journal = {Phys. Rev. D},
   volume = {83},
   number = {9},
   pages = {091101},
   numpages = {8},
   year = {2011},
   month = {May},
   doi = {10.1103/PhysRevD.83.091101},
   publisher = {American Physical Society}
}

BibTeX 被导入到我们在 JabRef 上的数据库,并通过自定义过滤器导出。问题是标题仍然包含 LaTeX 字符编码,因此不符合我们的准确性标准。

我读过有关 BibTeX 的文档,其中指出 BibTeX 中不会发生任何转换过程,因此对于包含 LaTeX 的引文,我很好奇我们可以使用什么方法来确保每个引文的准确性。此外,我们需要将用 LaTeX 编写的每个字符转换为可用的 UTF-8(因为我们的数据库不会识别任何非 UTF-8 的内容)。

像 Biber 这样的工具能解决这个问题吗?对于包含 LaTeX 编码的引文,我们是否需要放弃 JabRef?我尝试过在文档中添加 BibTeX 作为参考文献.tex,然后上传最终的 PDF,但效果并不好。

有什么建议么?

答案1

(将我和 Ulrike 的评论转换成某种形式的答案。)

我不太确定你期望这里发生什么。我怀疑你说的“LaTeX 编码”是指作为控制序列包含的项目(例如\rightarrow)。其中很多是数学符号,在字体级别很难找到这方面的全面覆盖。因此,即使使用 UTF-8,LaTeX 用户也会倾向于坚持使用这里的符号名称。此外,标题不必只包含字符。完全可以插入图形:

title = {Tiger: {\includegraphics[width=1cm]{tiger}}}

或者棋盘或者奇异符号。因此,如果你想建立一个只使用 UTF-8 字符的数据库,那么人类就必须仔细研究这些特殊标题,并决定应该用什么来替代。

因此,最好的方法是编写一些自定义脚本,选择您知道如何转换的项目并进行更改。同时,其他任何内容都可以标记为需要人工干预,这在许多情况下是唯一的方法。

相关内容