是否有任何软件(或伪代码)可以自动扫描一段文本(粘贴到工具中或从 .doc/.pdf 中读取)并使用标准格式识别引文数据?然后,数据将被拆分为其组成字段并以 XML、CSV 或其他结构化数据格式导出。我看过cb2Bib但它只能从哈佛式的参考文献中提取年份,这是不够的。
答案1
目前(2017 年),实现这一目标最活跃的开源项目似乎是任意样式解析器(最新版本 07-2016)。它可以通过 Web 界面、API 使用,或作为 RubyGem 下载。
他们在网站上明确提到,该实现受到了 ParsCit(最新版本 2013?)和 FreeCite(上次提交 2009 年)的启发。
也可以从他们的网站获取:
AnyStyle Parser 使用基于条件随机场的强大机器学习启发式方法,每个人都可以使用我们的内置编辑器进行训练。
这是一个非常酷的功能,这使得它成为最有趣的实现(恕我直言)。训练似乎非常简单,正如API 文档。您只需提供一些手动更正的结果,然后运行命令Anystyle.parser.train
。我不确定 ParsCit 和 FreeCite 是否也支持此功能,但如果它们不支持,这对我来说似乎是一个巨大的功能差异。
答案2
看一下可以从输入文本生成 XML 的引文解析器列表:
http://paracite.eprints.org
http://aye.comp.nus.edu.sg/parsCit(自 2012 年 8 月 1 日起处于维护模式)
http://opcit.eprints.org
http://search.cpan.org/~mjewell/Biblio-Citation-Parser-1.10
答案3
答案4
我曾见过 Westlaw 程序对法律引用进行这样的操作,但这可能不是您想要的。 参考经理可能会对学术格式做类似的事情,但我从未使用过它。