我想知道是否有一个 CLI 命令可以从 CLI 中的“文档”选项卡(来自 PDF 的文件属性)获取“创建”时间戳?
我知道我可以用它stat
从文件系统获取访问/修改/更改的信息,但是由于“文档”选项卡中的元数据嵌入在文件本身中,我不确定如何通过 CLI 提取它。
我需要这样做的原因是创建一个包含大约 22,000 个 PDF 文件的文件名列表以及“创建”时间戳。显然,这更适合 CLI 而不是 GUI。
答案1
如果您安装了该poppler-utils
包,则可以使用以下pdfinfo
命令执行此操作。例如:
$ pdfinfo OBEX-1.3.pdf
Title: Microsoft Word - OBEX13.doc
Author: Daphne
Creator: PScript5.dll Version 5.2
Producer: Acrobat Distiller 5.0.5 (Windows)
CreationDate: Wed Feb 5 11:12:32 2003
ModDate: Wed Feb 5 11:12:32 2003
Tagged: no
Pages: 95
Encrypted: no
Page size: 612 x 792 pts (letter)
File size: 545666 bytes
Optimized: yes
PDF version: 1.3
您应该能够使用标准工具(如sed
或 )从此输出中提取创建日期awk
。
如果您想要更程序化的东西,您可以poppler
直接使用该库。它为许多流行语言(包括 Python)提供了绑定(通过该python-poppler
包)。