我在多个论坛上看到,pdf 书籍元数据的 Universal PDF 部分格式不正确,在尝试读取时会导致错误。如何从 pdf 中删除特定的键和值?这会损坏数据吗?
以下是数据
File Type : PDF
File Type Extension : pdf
MIME Type : application/pdf
PDF Version : 1.6
Linearized : No
Universal : PDF
The : process
Code Mantra : Acrobat
Author : ModDate
LLC : http://www.codemantra.com
Create Date : 2004:08:26 09:42:01+05:30
EBX PUBLISHER : University of Toronto Press
Page Layout : SinglePage
Page Count : 419
Page Mode : UseOutlines
Has XFA : No
XMP Toolkit : 3.1-702
Code Mantra 002 C0020 LLC : http://www.codemantra.com
Universal 0020 PDF : The process that creates this PDF constitutes a trade secret of codeMantra, LLC and is protected by the copyright laws of the United States
Modify Date : 2012:09:11 15:27:50+05:30
Metadata Date : 2012:09:11 15:27:50+05:30
Creator Tool : Acrobat 5.0 Paper Capture Plug-in for Windows
Document ID : uuid:ccee9833-967a-4d92-b5fa-12faa7d620c4
Instance ID : uuid:51e5148e-3afa-45df-82b8-26d43c7e6ffc
Format : application/pdf
Title :
Creator : .
任何帮助,将不胜感激
答案1
此答案假设您要为此使用 exiftool。对于 PDF,可能还有其他工具可以更好地完成工作,特别是当您想针对单个项目而不是全部删除它们时。
首先,您需要确定标签名称(请参阅exiftool 常见问题解答 #2)。您显示的输出列出了标签描述,而不是标签名称。运行此命令可按名称列出标签。
exiftool -s File.PDF
一旦您有了想要删除的标签名称,您的命令将是
exiftool -TAG= <FileOrDir>
您可以清除多个标签并在该命令中列出多个文件和目录。
如果出现类似这样的错误Warning: Tag 'xxx' is not defined
,则说明您有自定义标签,exiftool 无法单独删除该标签。从您发布的输出来看,情况可能就是这样。您可以使用 exiftool 删除所有嵌入的元数据
exiftool -All:All= <FileOrDir>
由于 exiftool 编辑文件的方式,您可能仍会遇到问题(请参阅exiftool PDF 页面)。您可能需要重新线性化文件以完成项目。可以使用定量PDF使用命令
qpdf --linearize in.pdf out.pdf