出于隐私考虑,我想从文档中删除所有元数据(例如pdf,图片,文档, …). 元数据通常是以某种方式与实际内容分开存储的附加信息,例如:
- 使用的软件
- 使用的操作系统
- 时间和地点
- 相机型号、使用的设备……(照片,见Exif)
- …
如何可靠地从我的pdf,图片,文档等文件?
答案1
垫
看一下垫(元数据匿名化工具包)!它来自职责范围-人,并作为标准尾巴— 专注于隐私和匿名的实时操作系统。
由于它是一种包装器exiftool
,因此它支持更多文件格式exiftool
独自的。
到目前为止,它们是:
- 便携式网络图形 (.png)
- JPEG(.jpg、.jpeg 等)
- TIFF(.tif、tiff……)
- 打开文档(.odt、.odx、.ods 等)
- Office OpenXml(.docx、.pptx、.xlsx 等)
- 便携式文档文件格式 (.pdf)
- 磁带档案(.tar、.tar.bz2 等)
- MPEG 音频(.mp3、.mp2、.mp1、…)
- Ogg Vorbis(.ogg,…)
- 免费无损音频编解码器 (.flac)
- Torrent(.torrent)
有关更多详细信息,请参阅这纸。
谨防
“Mat 只会从文件中删除标准元数据,它不是:
- 匿名化其内容
- 处理水印
- 处理隐写术
- 任何过度定制的元数据字段/系统(→jpg,zip)
如果您确实想要匿名,请使用不包含任何元数据的格式,或者更好的方法是:使用纯文本。
最重要的是,要小心:每种格式都可以加水印,甚至是纯文本(例如 SNOW 项目)!
您还可以打印一份文件副本,重新扫描,然后将其传递给 MAT;但请小心安全地粉碎您的打印件,不要在打印机/扫描仪的内存中留下痕迹。”(摘自MAT 网站)
JPEG
注释和标准 Exif-/IPTC-/XMP-标签正在被删除。MAT 可能不涉及专有的非标准标签(如 Canon Raw 标签)。例如,专有 RAW → JPEG 转换工具可能会包含这些标签。
压缩
MAT 不会更改档案的内容。如果某个工具在档案中创建了包含元数据的其他文件,则不会对这些文件进行任何改动。
安装
Ubuntu 12.10 及以上版本
从 Ubuntu 12.10 开始,它位于标准存储库中宇宙。
sudo apt 安装 mat
低于 Ubuntu 12.10
对于较旧版本的 Ubuntu,必须手动安装。依赖项是:
- gir1.2-poppler-0.18
- libimage-exiftool-perl(宇宙)
- python2.7
- python-gi-cairo
- python-诱变剂
- python-pdfrw(宇宙)
通过以下方式安装:
sudo apt-get install gir1.2-poppler-0.18 libimage-exiftool-perl python2.7 python-gi-cairo python-mutagen python-pdfrw
然后得到 MAT这里(例如 mat-0.6.1.tar.xz)。如果您想要验证您的下载,请使用基努,也获取.asc 文件。
要检查它,请导入页面底部给出的密钥,例如通过
gpg --search-keys 0x04D041E8171901CC
并检查:
gpg --verify mat-0.6.1.tar.xz.asc mat-0.6.1.tar.xz
输出应该是这样的
gpg: Signature made Sun 03 Jan 2016 09:02:29 PM CET using RSA key ID 171901CC
gpg: Good signature from "Julien (jvoisin) Voisin <[email protected]>" [unknown]
gpg: aka "Julien (jvoisin) Voisin <[email protected]>" [unknown]
gpg: aka "Julien (jvoisin) Voisin <[email protected]>" [unknown]
gpg: WARNING: This key is not certified with a trusted signature!
gpg: There is no indication that the signature belongs to the owner.
Primary key fingerprint: 9FCD EE9E 1A38 1F31 1EA6 2A74 04D0 41E8 1719 01CC
通过提取并安装
tar xvfJ mat-0.6.1.tar.xz
cd mat-0.6.1
sudo python2 setup.py install
Debian 用户可以在测试-repo,Arch 用户平均房颤。
如果一切顺利,您将拥有控制台工具mat
和 GUI mat-gui
。
答案2
由于我现在必须多次查找这个问题,所以这里是对我有用的 pdf 解决方案:
pdftk myfile.pdf cat 1-end output clean-myfile.pdf
这看起来也是合理的(但我没有测试过):
qpdf --pages myfile.pdf 1-z -- --empty clean-myfile.pdf
两个答案都来自https://gist.github.com/hubgit/6078384#gistcomment-2004771。