是否可以将 PDF 文件中的参考书目提取为 .bibtex 文件？

Question 1

如果有人仍在寻找解决方案，任意风格是一个很好的一站式商店：

$ anystyle find <your pdf>
# returns a json-formatted list of all the references in the paper

或者，对于 BibTeX 输出：

$ anystyle -f bib find main.pdf
# returns BibTeX formatted list of all the references in the paper

Answer

如果有人仍在寻找解决方案，任意风格是一个很好的一站式商店：

$ anystyle find <your pdf>
# returns a json-formatted list of all the references in the paper

或者，对于 BibTeX 输出：

$ anystyle -f bib find main.pdf
# returns BibTeX formatted list of all the references in the paper

Question 2

帕斯西特应该是您要找的。它能够提取标题元数据（文档本身的标题、作者等）、逻辑文档结构和引用元数据（参考字符串和引用上下文的各个字段）。

Web 演示既提供整个文档的解析，也提供单个引用字符串的解析。缺点是，它目前不支持 PDF 文件。因此，您必须复制 PDF 文件的文本内容。

Answer

帕斯西特应该是您要找的。它能够提取标题元数据（文档本身的标题、作者等）、逻辑文档结构和引用元数据（参考字符串和引用上下文的各个字段）。

Web 演示既提供整个文档的解析，也提供单个引用字符串的解析。缺点是，它目前不支持 PDF 文件。因此，您必须复制 PDF 文件的文本内容。

Question 3

全面披露：我开发了下面提到的工具，并且是 Scholarcy 的创始人。

如果 PDF 位于公共 URL 且主机不阻止远程下载，则

即可。否则，您可以将 PDF 上传到

并将参考文献下载为 .RIS 或 BibTeX

它现在还不是开源的，但是基本方法如下：

从当前 URL 获取 PDF（Python要求库对于这个很方便）
使用可用于此目的的众多库之一提取文本（波普勒，pdfminer，pdfETC）
找到“参考文献”、“参考书目”或类似的标题。从那里开始阅读。
继续阅读，直到到达另一个标题
尽量将每个引用放在一行中。这可能有点棘手，但删除小写字母之间的换行符将大有帮助
现在你有了一个引用字符串列表，将它们提供给解析器，例如https://github.com/opensourceware/Neural-ParsCit（如上所述）或任意风格

Answer