学术参考文献中的引用文本的自动解析

学术参考文献中的引用文本的自动解析

是否有任何软件(或伪代码)可以自动扫描一段文本(粘贴到工具中或从 .doc/.pdf 中读取)并使用标准格式识别引文数据?然后,数据将被拆分为其组成字段并以 XML、CSV 或其他结构化数据格式导出。我看过cb2Bib但它只能从哈佛式的参考文献中提取年份,这是不够的。

答案1

目前(2017 年),实现这一目标最活跃的开源项目似乎是任意样式解析器(最新版本 07-2016)。它可以通过 Web 界面、API 使用,或作为 RubyGem 下载。

他们在网站上明确提到,该实现受到了 ParsCit(最新版本 2013?)和 FreeCite(上次提交 2009 年)的启发。

也可以从他们的网站获取:

AnyStyle Parser 使用基于条件随机场的强大机器学习启发式方法,每个人都可以使用我们的内置编辑器进行训练。

这是一个非常酷的功能,这使得它成为最有趣的实现(恕我直言)。训练似乎非常简单,正如API 文档。您只需提供一些手动更正的结果,然后运行命令Anystyle.parser.train。我不确定 ParsCit 和 FreeCite 是否也支持此功能,但如果它们不支持,这对我来说似乎是一个巨大的功能差异。

答案2

看一下可以从输入文本生成 XML 的引文解析器列表:

http://paracite.eprints.org
http://aye.comp.nus.edu.sg/parsCit(自 2012 年 8 月 1 日起处于维护模式)
http://opcit.eprints.org
http://search.cpan.org/~mjewell/Biblio-Citation-Parser-1.10

答案3

尝试以下工具正则表达式伙伴或者特浓咖啡

如果您不是程序员,正则表达式可能会有点令人生畏,但实际上它们并不是那么难,尤其是使用像上述这样的好工具时。

以下是使用正则表达式提取引文的一个例子:

引文解析正则表达式

答案4

我曾见过 Westlaw 程序对法律引用进行这样的操作,但这可能不是您想要的。 参考经理可能会对学术格式做类似的事情,但我从未使用过它。

相关内容