扫描pdf文件

扫描pdf文件

我想使用linux shell命令扫描pdf格式的研究论文。如果我只想打印/显示作者姓名和论文标题,有什么具体方法可以做到这一点吗?

答案1

您可能对软件包pdfinfo中的实用程序感兴趣poppler-utils ,至少在 debian 和 fedora 上。来自帮助:

Pdfinfo 从可移植文档格式 (PDF) 文件中打印“Info”词典的内容(以及一些其他有用信息)。 “Info”字典包含以下值:

标题主题关键词作者创建者制作者创建日期修改日期


以下是有关 AIX 命令的文档的输出示例:

$ pdfinfo aixcmds2.pdf
Title:          AIX Version 6.1 Commands Reference, Volume 2
Subject:        
Keywords:       
Author:         IBM
Creator:        XPP
Producer:       Acrobat Distiller 7.0 (Windows)
CreationDate:   Mon Jul  9 15:38:26 2007
ModDate:        Mon Jul  9 15:38:26 2007
Tagged:         yes
UserProperties: no
Suspects:       no
Form:           none
JavaScript:     no
Pages:          746
Encrypted:      no
Page size:      612 x 792 pts (letter)
Page rot:       0
File size:      8588481 bytes
Optimized:      yes
PDF version:    1.3

如果您只想要作者(本例中为“IBM”),您可以执行以下操作:

pdfinfo aixcmds2.pdf | sed -n 's/^Author: *//p'

或者如果您想要标题和作者,则使用以下标题:

$ pdfinfo aixcmds2.pdf | sed -n '/^\(Author\|Title\):/p'
Title:          AIX Version 6.1 Commands Reference, Volume 2
Author:         IBM

相关内容