如何从 PDF 中删除元数据的特定行/键

如何从 PDF 中删除元数据的特定行/键

我在多个论坛上看到,pdf 书籍元数据的 Universal PDF 部分格式不正确,在尝试读取时会导致错误。如何从 pdf 中删除特定的键和值?这会损坏数据吗?

以下是数据

File Type                       : PDF
File Type Extension             : pdf
MIME Type                       : application/pdf
PDF Version                     : 1.6
Linearized                      : No
Universal                       : PDF
The                             : process
Code Mantra                     : Acrobat
Author                          : ModDate
LLC                             : http://www.codemantra.com
Create Date                     : 2004:08:26 09:42:01+05:30
EBX PUBLISHER                   : University of Toronto Press
Page Layout                     : SinglePage
Page Count                      : 419
Page Mode                       : UseOutlines
Has XFA                         : No
XMP Toolkit                     : 3.1-702
Code Mantra 002 C0020 LLC       : http://www.codemantra.com
Universal 0020 PDF              : The process that creates this PDF constitutes a trade secret of codeMantra, LLC and is protected by the copyright laws of the United States
Modify Date                     : 2012:09:11 15:27:50+05:30
Metadata Date                   : 2012:09:11 15:27:50+05:30
Creator Tool                    : Acrobat 5.0 Paper Capture Plug-in for Windows
Document ID                     : uuid:ccee9833-967a-4d92-b5fa-12faa7d620c4
Instance ID                     : uuid:51e5148e-3afa-45df-82b8-26d43c7e6ffc
Format                          : application/pdf
Title                           : 
Creator                         : .

任何帮助,将不胜感激

答案1

此答案假设您要为此使用 exiftool。对于 PDF,可能还有其他工具可以更好地完成工作,特别是当您想针对单个项目而不是全部删除它们时。

首先,您需要确定标签名称(请参阅exiftool 常见问题解答 #2)。您显示的输出列出了标签描述,而不是标签名称。运行此命令可按名称列出标签。
exiftool -s File.PDF

一旦您有了想要删除的标签名称,您的命令将是
exiftool -TAG= <FileOrDir>
您可以清除多个标签并在该命令中列出多个文件和目录。

如果出现类似这样的错误Warning: Tag 'xxx' is not defined,则说明您有自定义标签,exiftool 无法单独删除该标签。从您发布的输出来看,情况可能就是这样。您可以使用 exiftool 删除所有嵌入的元数据
exiftool -All:All= <FileOrDir>

由于 exiftool 编辑文件的方式,您可能仍会遇到问题(请参阅exiftool PDF 页面)。您可能需要重新线性化文件以完成项目。可以使用定量PDF使用命令
qpdf --linearize in.pdf out.pdf

相关内容