垫

出于隐私考虑,我想从文档中删除所有元数据(例如pdf图片文档, …). 元数据通常是以某种方式与实际内容分开存储的附加信息,例如:

  • 使用的软件
  • 使用的操作系统
  • 时间和地点
  • 相机型号、使用的设备……(照片,见Exif

如何可靠地从我的pdf图片文档等文件?

答案1

看一下元数据匿名化工具包)!它来自职责范围-人,并作为标准尾巴— 专注于隐私和匿名的实时操作系统。

由于它是一种包装器exiftool,因此它支持更多文件格式exiftool独自的。

到目前为止,它们是:

  • 便携式网络图形 (.png)
  • JPEG(.jpg、.jpeg 等)
  • TIFF(.tif、tiff……)
  • 打开文档(.odt、.odx、.ods 等)
  • Office OpenXml(.docx、.pptx、.xlsx 等)
  • 便携式文档文件格式 (.pdf)
  • 磁带档案(.tar、.tar.bz2 等)
  • MPEG 音频(.mp3、.mp2、.mp1、…)
  • Ogg Vorbis(.ogg,…)
  • 免费无损音频编解码器 (.flac)
  • Torrent(.torrent)

有关更多详细信息,请参阅纸。

谨防

“Mat 只会从文件中删除标准元数据,它不是

  • 匿名化其内容
  • 处理水印
  • 处理隐写术
  • 任何过度定制的元数据字段/系统(→jpg,zip)

如果您确实想要匿名,请使用不包含任何元数据的格式,或者更好的方法是:使用纯文本。

最重要的是,要小心:每种格式都可以加水印,甚至是纯文本(例如 SNOW 项目)!

您还可以打印一份文件副本,重新扫描,然后将其传递给 MAT;但请小心安全地粉碎您的打印件,不要在打印机/扫描仪的内存中留下痕迹。”(摘自MAT 网站

JPEG

注释和标准 Exif-/IPTC-/XMP-标签正在被删除。MAT 可能不涉及专有的非标准标签(如 Canon Raw 标签)。例如,专有 RAW → JPEG 转换工具可能会包含这些标签。

压缩

MAT 不会更改档案的内容。如果某个工具在档案中创建了包含元数据的其他文件,则不会对这些文件进行任何改动。

安装

Ubuntu 12.10 及以上版本

从 Ubuntu 12.10 开始,它位于标准存储库中宇宙

sudo apt 安装 mat

低于 Ubuntu 12.10

对于较旧版本的 Ubuntu,必须手动安装。依赖项是:

  • gir1.2-poppler-0.18
  • libimage-exiftool-perl(宇宙)
  • python2.7
  • python-gi-cairo
  • python-诱变剂
  • python-pdfrw(宇宙)

通过以下方式安装:

sudo apt-get install gir1.2-poppler-0.18 libimage-exiftool-perl python2.7 python-gi-cairo python-mutagen python-pdfrw

然后得到 MAT这里(例如 mat-0.6.1.tar.xz)。如果您想要验证您的下载,请使用基努,也获取.asc 文件。

要检查它,请导入页面底部给出的密钥,例如通过

gpg --search-keys 0x04D041E8171901CC

并检查:

gpg --verify mat-0.6.1.tar.xz.asc  mat-0.6.1.tar.xz

输出应该是这样的

gpg: Signature made Sun 03 Jan 2016 09:02:29 PM CET using RSA key ID 171901CC
gpg: Good signature from "Julien (jvoisin) Voisin <[email protected]>" [unknown]
gpg:                 aka "Julien (jvoisin) Voisin <[email protected]>" [unknown]
gpg:                 aka "Julien (jvoisin) Voisin <[email protected]>" [unknown]
gpg: WARNING: This key is not certified with a trusted signature!
gpg:          There is no indication that the signature belongs to the owner.
Primary key fingerprint: 9FCD EE9E 1A38 1F31 1EA6  2A74 04D0 41E8 1719 01CC

通过提取并安装

tar xvfJ mat-0.6.1.tar.xz
cd mat-0.6.1
sudo python2 setup.py install

Debian 用户可以在测试-repo,Arch 用户平均房颤

如果一切顺利,您将拥有控制台工具mat和 GUI mat-gui

答案2

由于我现在必须多次查找这个问题,所以这里是对我有用的 pdf 解决方案:

pdftk myfile.pdf cat 1-end output clean-myfile.pdf

这看起来也是合理的(但我没有测试过):

qpdf --pages myfile.pdf 1-z -- --empty clean-myfile.pdf

两个答案都来自https://gist.github.com/hubgit/6078384#gistcomment-2004771

相关内容