根据标题自动重命名 PDF

Question 1

有门德利，一款可让您管理科学出版物的在线研究工具。

它有一个 Mendeley Desktop 工具，您可以在其中拖放 PDF。Mendeley 会自动解析 PDF 中的作者和标题。

在此处输入图片描述

然后，您可以通过右键单击并“重命名文档文件...”来重命名文件。您还可以一次重命名多个文件。

在此处输入图片描述

它适用于 Windows 和 OS X。

Answer

有门德利，一款可让您管理科学出版物的在线研究工具。

它有一个 Mendeley Desktop 工具，您可以在其中拖放 PDF。Mendeley 会自动解析 PDF 中的作者和标题。

在此处输入图片描述

然后，您可以通过右键单击并“重命名文档文件...”来重命名文件。您还可以一次重命名多个文件。

在此处输入图片描述

它适用于 Windows 和 OS X。

Question 2

如果我理解正确的话，您想要提取 PDF 第一页上的论文标题（通常比摘要和后续文本更大）并将其用作文件名。

恐怕你可能找不到一劳永逸的解决方案，因为 PDF 开头的非标题文本数量可能不同，因此很难提取来自不同期刊的 PDF 的实际标题。

为了获得适用于特定比例 PDF 的解决方案，我可能会

使用 Ghostscript 的 pdf2ps 和 ps2ascii从 PDF 中提取纯文本
解析此纯文本中前 1000 字节左右的期刊标题
根据期刊尝试提出一种从明文中提取论文标题的启发式方法。

当然，如果您能找到一个可以从 PDF 中提取相对文本大小以及纯文本的工具，那也可能会有很大帮助。

祝你好运 - 看看你是否能找到一种自动化的方法！我自己下载文章时主要做的事情就是系统地命名它们，但如果事后能有办法做这件事就太好了……

Answer

如果我理解正确的话，您想要提取 PDF 第一页上的论文标题（通常比摘要和后续文本更大）并将其用作文件名。

恐怕你可能找不到一劳永逸的解决方案，因为 PDF 开头的非标题文本数量可能不同，因此很难提取来自不同期刊的 PDF 的实际标题。

为了获得适用于特定比例 PDF 的解决方案，我可能会

使用 Ghostscript 的 pdf2ps 和 ps2ascii从 PDF 中提取纯文本
解析此纯文本中前 1000 字节左右的期刊标题
根据期刊尝试提出一种从明文中提取论文标题的启发式方法。

当然，如果您能找到一个可以从 PDF 中提取相对文本大小以及纯文本的工具，那也可能会有很大帮助。

祝你好运 - 看看你是否能找到一种自动化的方法！我自己下载文章时主要做的事情就是系统地命名它们，但如果事后能有办法做这件事就太好了……

Question 3

如果您不想使用外部软件，而想编写自己的脚本，请尝试使用文本编辑器以纯文本形式打开 PDF，然后查找模式。搜索关键字“标题”，或搜索标题中的单词并查看它们出现的位置。

举几个例子（化学科学期刊）：

ACS（美国化学学会）：标题出现在关键字“/title”第二次出现后的括号内

Wiley 出版：在第一次（也是唯一一次）出现关键字“/Title”后，标题出现在括号之间

Rsc 出版：没有纯文本的标题。

Springer：这似乎取决于期刊

由于我阅读的大多数期刊都来自 wiley 或 acs，所以对我来说情况相当不错。

这可能是一个计划：1. 研究你最常阅读期刊的出版商的 pdf 2. 挑选那些标题为纯文本的 pdf。这应该不是问题，因为它们都在 pdf 的最后 KB 中包含了它们的名称 3. 使用脚本管理它们

根据您阅读的期刊数量，有多少使用标题标签作为文章标题，这可能有用或没用。

更通用的方法是：pdf->text->parse text你可以从这里开始： https://stackoverflow.com/questions/25665/python-module-for-converting-pdf-to-text

Answer

如果您不想使用外部软件，而想编写自己的脚本，请尝试使用文本编辑器以纯文本形式打开 PDF，然后查找模式。搜索关键字“标题”，或搜索标题中的单词并查看它们出现的位置。

举几个例子（化学科学期刊）：

ACS（美国化学学会）：标题出现在关键字“/title”第二次出现后的括号内

Wiley 出版：在第一次（也是唯一一次）出现关键字“/Title”后，标题出现在括号之间

Rsc 出版：没有纯文本的标题。

Springer：这似乎取决于期刊

由于我阅读的大多数期刊都来自 wiley 或 acs，所以对我来说情况相当不错。

这可能是一个计划：1. 研究你最常阅读期刊的出版商的 pdf 2. 挑选那些标题为纯文本的 pdf。这应该不是问题，因为它们都在 pdf 的最后 KB 中包含了它们的名称 3. 使用脚本管理它们

根据您阅读的期刊数量，有多少使用标题标签作为文章标题，这可能有用或没用。

更通用的方法是：pdf->text->parse text你可以从这里开始： https://stackoverflow.com/questions/25665/python-module-for-converting-pdf-to-text

Question 4

有一个 Python 模块pdftitle · PyPI提取标题。

用法：

$ pdftitle -p 1506.01186.pdf --replace-missing-char ' '
Cyclical Learning Rates for Training Neural Networks

建议使用--replace-missing-char选项，否则可能会崩溃，例如，https://arxiv.org/pdf/1506.01186.pdf。由于缺失的字符往往不在标题中，因此不会影响结果的质量。

鉴于标题，编写一个脚本进行批量重命名应该很容易。

根据标题自动重命名 PDF

答案1

答案2

答案3

答案4

相关内容