我有数千个科学 PDF 需要重命名,其中许多都没有元数据。我希望能够创建一个自动化操作,可以打开一个文件夹,然后打开每个 PDF,复制标题并重命名文档并保存在新文件夹中。我花了几个小时试图弄清楚这一点,所以我非常感谢任何人的帮助。我有运行 os10.6 的 Apple G5 2.26Gz 四核处理器,谢谢!
答案1
有门德利,一款可让您管理科学出版物的在线研究工具。
它有一个 Mendeley Desktop 工具,您可以在其中拖放 PDF。Mendeley 会自动解析 PDF 中的作者和标题。
然后,您可以通过右键单击并“重命名文档文件...”来重命名文件。您还可以一次重命名多个文件。
它适用于 Windows 和 OS X。
答案2
如果我理解正确的话,您想要提取 PDF 第一页上的论文标题(通常比摘要和后续文本更大)并将其用作文件名。
恐怕你可能找不到一劳永逸的解决方案,因为 PDF 开头的非标题文本数量可能不同,因此很难提取来自不同期刊的 PDF 的实际标题。
为了获得适用于特定比例 PDF 的解决方案,我可能会
- 使用 Ghostscript 的 pdf2ps 和 ps2ascii从 PDF 中提取纯文本
- 解析此纯文本中前 1000 字节左右的期刊标题
- 根据期刊尝试提出一种从明文中提取论文标题的启发式方法。
当然,如果您能找到一个可以从 PDF 中提取相对文本大小以及纯文本的工具,那也可能会有很大帮助。
祝你好运 - 看看你是否能找到一种自动化的方法!我自己下载文章时主要做的事情就是系统地命名它们,但如果事后能有办法做这件事就太好了……
答案3
如果您不想使用外部软件,而想编写自己的脚本,请尝试使用文本编辑器以纯文本形式打开 PDF,然后查找模式。搜索关键字“标题”,或搜索标题中的单词并查看它们出现的位置。
举几个例子(化学科学期刊):
ACS(美国化学学会):标题出现在关键字“/title”第二次出现后的括号内
Wiley 出版:在第一次(也是唯一一次)出现关键字“/Title”后,标题出现在括号之间
Rsc 出版:没有纯文本的标题。
Springer:这似乎取决于期刊
由于我阅读的大多数期刊都来自 wiley 或 acs,所以对我来说情况相当不错。
这可能是一个计划:1. 研究你最常阅读期刊的出版商的 pdf 2. 挑选那些标题为纯文本的 pdf。这应该不是问题,因为它们都在 pdf 的最后 KB 中包含了它们的名称 3. 使用脚本管理它们
根据您阅读的期刊数量,有多少使用标题标签作为文章标题,这可能有用或没用。
更通用的方法是:pdf->text->parse text你可以从这里开始: https://stackoverflow.com/questions/25665/python-module-for-converting-pdf-to-text
答案4
有一个 Python 模块pdftitle · PyPI提取标题。
用法:
$ pdftitle -p 1506.01186.pdf --replace-missing-char ' '
Cyclical Learning Rates for Training Neural Networks
建议使用--replace-missing-char
选项,否则可能会崩溃,例如,https://arxiv.org/pdf/1506.01186.pdf。由于缺失的字符往往不在标题中,因此不会影响结果的质量。
鉴于标题,编写一个脚本进行批量重命名应该很容易。
相关问题链接: