在 CLI 中获取 PDF 文件的“创建”时间戳

在 CLI 中获取 PDF 文件的“创建”时间戳

我想知道是否有一个 CLI 命令可以从 CLI 中的“文档”选项卡(来自 PDF 的文件属性)获取“创建”时间戳?

我知道我可以用它stat从文件系统获取访问/修改/更改的信息,但是由于“文档”选项卡中的元数据嵌入在文件本身中,我不确定如何通过 CLI 提取它。

我需要这样做的原因是创建一个包含大约 22,000 个 PDF 文件的文件名列表以及“创建”时间戳。显然,这更适合 CLI 而不是 GUI。

答案1

如果您安装了该poppler-utils包,则可以使用以下pdfinfo命令执行此操作。例如:

$ pdfinfo OBEX-1.3.pdf 
Title:          Microsoft Word - OBEX13.doc
Author:         Daphne
Creator:        PScript5.dll Version 5.2
Producer:       Acrobat Distiller 5.0.5 (Windows)
CreationDate:   Wed Feb  5 11:12:32 2003
ModDate:        Wed Feb  5 11:12:32 2003
Tagged:         no
Pages:          95
Encrypted:      no
Page size:      612 x 792 pts (letter)
File size:      545666 bytes
Optimized:      yes
PDF version:    1.3

您应该能够使用标准工具(如sed或 )从此输出中提取创建日期awk

如果您想要更程序化的东西,您可以poppler直接使用该库。它为许多流行语言(包括 Python)提供了绑定(通过该python-poppler包)。

答案2

我是新手,但看起来扩展工具可以提取它。例如:

% exiftool -createdate -ext pdf .

将输出当前目录中所有 PDF 的创建日期。有一些选项可以控制输出格式,包括-csv-json

相关内容