根据标题自动重命名 PDF

根据标题自动重命名 PDF

我有数千个科学 PDF 需要重命名,其中许多都没有元数据。我希望能够创建一个自动化操作,可以打开一个文件夹,然后打开每个 PDF,复制标题并重命名文档并保存在新文件夹中。我花了几个小时试图弄清楚这一点,所以我非常感谢任何人的帮助。我有运行 os10.6 的 Apple G5 2.26Gz 四核处理器,谢谢!

答案1

门德利,一款可让您管理科学出版物的在线研究工具。

它有一个 Mendeley Desktop 工具,您可以在其中拖放 PDF。Mendeley 会自动解析 PDF 中的作者和标题。

在此处输入图片描述

然后,您可以通过右键单击并“重命名文档文件...”来重命名文件。您还可以一次重命名多个文件。

在此处输入图片描述

它适用于 Windows 和 OS X。

答案2

如果我理解正确的话,您想要提取 PDF 第一页上的论文标题(通常比摘要和后续文本更大)并将其用作文件名。

恐怕你可能找不到一劳永逸的解决方案,因为 PDF 开头的非标题文本数量可能不同,因此很难提取来自不同期刊的 PDF 的实际标题。

为了获得适用于特定比例 PDF 的解决方案,我可能会

  • 使用 Ghostscript 的 pdf2ps 和 ps2ascii从 PDF 中提取纯文本
  • 解析此纯文本中前 1000 字节左右的期刊标题
  • 根据期刊尝试提出一种从明文中提取论文标题的启发式方法。

当然,如果您能找到一个可以从 PDF 中提取相对文本大小以及纯文本的工具,那也可能会有很大帮助。

祝你好运 - 看看你是否能找到一种自动化的方法!我自己下载文章时主要做的事情就是系统地命名它们,但如果事后能有办法做这件事就太好了……

答案3

如果您不想使用外部软件,而想编写自己的脚本,请尝试使用文本编辑器以纯文本形式打开 PDF,然后查找模式。搜索关键字“标题”,或搜索标题中的单词并查看它们出现的位置。

举几个例子(化学科学期刊):

ACS(美国化学学会):标题出现在关键字“/title”第二次出现后的括号内

Wiley 出版:在第一次(也是唯一一次)出现关键字“/Title”后,标题出现在括号之间

Rsc 出版:没有纯文本的标题。

Springer:这似乎取决于期刊

由于我阅读的大多数期刊都来自 wiley 或 acs,所以对我来说情况相当不错。

这可能是一个计划:1. 研究你最常阅读期刊的出版商的 pdf 2. 挑选那些标题为纯文本的 pdf。这应该不是问题,因为它们都在 pdf 的最后 KB 中包含了它们的名称 3. 使用脚本管理它们

根据您阅读的期刊数量,有多少使用标题标签作为文章标题,这可能有用或没用。

更通用的方法是:pdf->text->parse text你可以从这里开始: https://stackoverflow.com/questions/25665/python-module-for-converting-pdf-to-text

答案4

有一个 Python 模块pdftitle · PyPI提取标题。

用法:

$ pdftitle -p 1506.01186.pdf --replace-missing-char ' '
Cyclical Learning Rates for Training Neural Networks

建议使用--replace-missing-char选项,否则可能会崩溃,例如,https://arxiv.org/pdf/1506.01186.pdf。由于缺失的字符往往不在标题中,因此不会影响结果的质量。

鉴于标题,编写一个脚本进行批量重命名应该很容易。


相关问题链接:

相关内容