是否可以将 PDF 文件中的参考书目提取为 .bibtex 文件?

是否可以将 PDF 文件中的参考书目提取为 .bibtex 文件?

有一个 pdf 报告,其中列出了我所在领域的大量参考文献,我可以将它们提取为 bibtex 文件以供重复使用吗?

答案1

如果有人仍在寻找解决方案,任意风格是一个很好的一站式商店:

$ anystyle find <your pdf>
# returns a json-formatted list of all the references in the paper

或者,对于 BibTeX 输出:

$ anystyle -f bib find main.pdf
# returns BibTeX formatted list of all the references in the paper

答案2

帕斯西特应该是您要找的。它能够提取标题元数据(文档本身的标题、作者等)、逻辑文档结构和引用元数据(参考字符串和引用上下文的各个字段)。

Web 演示既提供整个文档的解析,也提供单个引用字符串的解析。缺点是,它目前不支持 PDF 文件。因此,您必须复制 PDF 文件的文本内容。

答案3

全面披露:我开发了下面提到的工具,并且是 Scholarcy 的创始人。

如果 PDF 位于公共 URL 且主机不阻止远程下载,则

https://www.scholarcy.com/bookmarklets

即可。否则,您可以将 PDF 上传到

https://ref.scholarcy.com/api/

并将参考文献下载为 .RIS 或 BibTeX

它现在还不是开源的,但是基本方法如下:

  1. 从当前 URL 获取 PDF(Python要求库对于这个很方便)
  2. 使用可用于此目的的众多库之一提取文本(波普勒pdfminerpdfETC)
  3. 找到“参考文献”、“参考书目”或类似的标题。从那里开始阅读。
  4. 继续阅读,直到到达另一个标题
  5. 尽量将每个引用放在一行中。这可能有点棘手,但删除小写字母之间的换行符将大有帮助
  6. 现在你有了一个引用字符串列表,将它们提供给解析器,例如https://github.com/opensourceware/Neural-ParsCit(如上所述)或任意风格

答案4

使用 refextract python 库。通过使用一小段代码,您可以从多个 pdf 中提取 bib 信息。

相关内容