如何生成 tex 文件中使用的参考文献的文本文件(无任何格式)?向期刊提交科学论文时经常需要这样做,因为他们需要单独的参考书目列表。但是,如果我将 pdf 文件转换为 docx 文档,则存在文本中的“ff”和“fi”未正确复制的问题,因此需要进行大量手动更正。
有谁知道如何从 latex 文件或 pdf 文档中获取参考文献列表?
答案1
有几种可能,但哪种方法对你有用取决于文本文件所需的格式。你说你不需要格式化,但我怀疑你是否会只对文件中的格式感到满意.bib
。
从biblatex
/BibTeX如果你使用,biblatex
没有简单的方法来获得书目的文本,因为它是由\printbibliography
。(另请参阅是否可以自动模仿编译的参考书目?)。但是如果你使用 BibTeX,.bbl
文件会包含一些格式和 LaTeX 命令的参考书目。改变.bst
生成此输出的文件更改为仅提供纯文本并非不可能,但这确实需要一些工作。可以在以下位置找到示例https://gist.github.com/moewew/50795d6f171269e949d71d8c4149468e。您可以更改您的文档以使用新的参考书目样式plain-plain
,并且编译运行会在文件中为您提供纯文本输出.bbl
。
biblatex
用户可以尝试biblatex2bibitem
,它将从 PDF 复制粘贴的解决方案与此处建议的方法相结合:在 bib latex 中将参考书目输出为标准分项列表。
从 PDF 复制并粘贴从 PDF 中简单地复制粘贴(我认为您尝试过)可能是一个很好的一次性解决方案,但这可能需要手动干预以删除可能不需要的换行符、页码和其他奇怪的东西。而且您可能还会遇到复制的字符无法按预期识别的问题(您提到“fi”和“ff”连字符 - 我从未遇到过这些问题,但这可能与字体甚至查看器有关)。
使用 OpenDetex 删除 LaTeX 命令 detex
可以删除 (La)TeX 命令并生成文档的纯文本版本。请参阅https://github.com/pkubowicz/opendetex
将文档转换为 HTML 等。您还可以将.tex
文件转换为 HTML.odt
或其他格式,以获得几乎纯文本版本的参考书目。htlatex
我首先想到的是 Pandoc 和。还有一些工具可以从.dvi
或.pdf
文件中提取纯文本,dvi2tty
请pdftotext
参阅https://texfaq.org/FAQ-recovertex。
转换.bib
为 HTML最后,还有一些工具可以bib2html
将文件中的条目.bib
直接转换为 HTML,另请参阅如何快速将单个 BibTeX 参考文献转换为格式化参考文献?. 一些参考文献管理器,如 JabRef 和 Bibdesk,还提供某些样式的条目预览功能.bib
,可用于生成纯文本书目。
答案2
步骤 1:从以下位置获取 detex https://github.com/pkubowicz/opendetex
detex paper.bbl > references.txt
第2步:
编辑 references.txt 以删除页眉和页脚,以便仅保留参考文献。删除参考文献中的任何空行,以便每个参考文献成为一个单独的段落。第一个参考文献之前不应有空行。
步骤3:
perl -00pe 's/^/\[$.\]/' references.txt | \
sed 's/^\(\[[0-9]\{1,\}\]\).*/\1/g' | \
perl -0777 -pe 's/\n(?=[^\n])//g' | \
sed 's/^\(\[[0-9]\{1,\}\]\)/\1 /g' > references_n.txt
第一个命令对参考段落进行编号,第二个命令删除 id 字符串,第四个命令删除参考中的换行符,最后一个命令在括号中的数字和参考文本之间添加空格。
答案3
您可以使用 Nitro Pro 从 pdf 中提取参考资料。您需要购买该软件。但是,他们提供限时免费试用。
在 Nitro Pro 中,转到“转换”选项卡并单击“转换为纯文本”。