我想使用linux shell命令扫描pdf格式的研究论文。如果我只想打印/显示作者姓名和论文标题,有什么具体方法可以做到这一点吗?
答案1
您可能对软件包pdfinfo
中的实用程序感兴趣poppler-utils
,至少在 debian 和 fedora 上。来自帮助:
Pdfinfo 从可移植文档格式 (PDF) 文件中打印“Info”词典的内容(以及一些其他有用信息)。 “Info”字典包含以下值:
标题主题关键词作者创建者制作者创建日期修改日期
以下是有关 AIX 命令的文档的输出示例:
$ pdfinfo aixcmds2.pdf
Title: AIX Version 6.1 Commands Reference, Volume 2
Subject:
Keywords:
Author: IBM
Creator: XPP
Producer: Acrobat Distiller 7.0 (Windows)
CreationDate: Mon Jul 9 15:38:26 2007
ModDate: Mon Jul 9 15:38:26 2007
Tagged: yes
UserProperties: no
Suspects: no
Form: none
JavaScript: no
Pages: 746
Encrypted: no
Page size: 612 x 792 pts (letter)
Page rot: 0
File size: 8588481 bytes
Optimized: yes
PDF version: 1.3
如果您只想要作者(本例中为“IBM”),您可以执行以下操作:
pdfinfo aixcmds2.pdf | sed -n 's/^Author: *//p'
或者如果您想要标题和作者,则使用以下标题:
$ pdfinfo aixcmds2.pdf | sed -n '/^\(Author\|Title\):/p'
Title: AIX Version 6.1 Commands Reference, Volume 2
Author: IBM