有一个 pdf 报告,其中列出了我所在领域的大量参考文献,我可以将它们提取为 bibtex 文件以供重复使用吗?
答案1
如果有人仍在寻找解决方案,任意风格是一个很好的一站式商店:
$ anystyle find <your pdf>
# returns a json-formatted list of all the references in the paper
或者,对于 BibTeX 输出:
$ anystyle -f bib find main.pdf
# returns BibTeX formatted list of all the references in the paper
答案2
帕斯西特应该是您要找的。它能够提取标题元数据(文档本身的标题、作者等)、逻辑文档结构和引用元数据(参考字符串和引用上下文的各个字段)。
Web 演示既提供整个文档的解析,也提供单个引用字符串的解析。缺点是,它目前不支持 PDF 文件。因此,您必须复制 PDF 文件的文本内容。
答案3
全面披露:我开发了下面提到的工具,并且是 Scholarcy 的创始人。
如果 PDF 位于公共 URL 且主机不阻止远程下载,则
https://www.scholarcy.com/bookmarklets
即可。否则,您可以将 PDF 上传到
https://ref.scholarcy.com/api/
并将参考文献下载为 .RIS 或 BibTeX
它现在还不是开源的,但是基本方法如下:
答案4
使用 refextract python 库。通过使用一小段代码,您可以从多个 pdf 中提取 bib 信息。