我正在为我所在研究所的出版物数据库编写一个小型 BibTeX 导出器。我们确实有很多作者的名字中都有各种奇怪的字符,而 BibTeX 会对此做出“Unicode 到底是什么鬼?”的处理。
由于我必须在导出之前预处理作者姓名和标题,因此我认为我可以用 LaTeX 等效字符替换尽可能多的 unicode 字符。这里有一张带有此类映射的图像bibtex 论坛:
但那幅图
- 不完整(例如缺少大写德语变音符号)和
- 这种形式对我来说没什么用。
是否有人知道这种尽可能完整且以机器可读格式提供的映射?
编辑:Juan 的 XML 可能已经非常完整了(我将在 github 上发布一个简化为 unicode 和 LaTeX 的 Python 字典)。但与此同时,我还发现了映射佐特罗用途。可以在其SVN 存储库。
編輯2:OK,可以找到Python字典这里,将 Juan 的 XML 转换为 Python 字典的 XSL 样式表是这里。
答案1
从SO上的相关问题, 有
...XML 文件来自 W3C。它将 Unicode 映射到 HTML、MathML、LaTeX、Mathematica 和其他语言。(文件大小为 1.4 MB,未压缩。)
你可以在这里读更多关于它的内容:http://www.w3.org/TR/unicode-xml/
答案2
您可以使用biber
bibdatabibtex
和导出的 bib 编码的可选参数(UTF8
)。
biber --bblencoding=UTF-8 --bibencoding=latin1 --allentries --bibdata <file.bib>