PDF 中的涂白可以消除吗?

PDF 中的涂白可以消除吗?

不久前,我做了一个视频演示如何使用福昕阅读器

在删除内容后,我建议您可以使用“Microsoft Print to PDF”虚拟打印机将文档打印为新的 PDF,从而阻止“该 PDF 的接收者”撤消您的删除操作(使用某些高级 PDF 编辑器)。

在我过去使用过的其他“打印为 PDF”虚拟打印机中,生成的文件是源文档中的所有文本都转换为图像的文件,而新生成的 PDF 中唯一包含的内容是文档外观的嵌入图像白色修改。在这种情况下,收件人不可能撤消白色修改,因为 PDF 甚至不包含白色修改下面的内容。

在最新的 Foxit Reader 中,删除内容的步骤已经改变。我想制作一个更新的视频。然而,在测试时,我注意到由“Microsoft Print to PDF”生成的 PDF 中有文本,我可以突出显示、复制和粘贴这些文本。由于 PDF 是不是只是嵌入的图像(没有文本),现在我不太确定高级 PDF 编辑器是否无法消除空白。这对某些人来说可能非常重要,所以我想确保我的建议是正确的。

我没有高级 PDF 编辑器来确认这一点。因此,我希望有人(阅读本文的人)拥有相关知识(或资源)来明确确认这项技术是否确实是一种可靠的方法,可以确保 PDF 文档的私人编辑不会被任何高级技术泄露。

答案1

如果您使用专有工具,则无法保证这些工具将如何“优化”工作流程以及在转换中保留哪些元数据。

例如 1:如果图像层下面有文本层(以“协助”文本到语音用户),则可以撤消白化。

例如 2:如果工具想要包含文本以启用图像的“文本搜索”,那么文本可能存在于某些元数据中,例如评论或注解。

例如 3:某些工具存储修订历史记录(以帮助“撤消”和“审核”)并且这些可能会泄露不需要的文本。

例如 4:一些工具会生成缓存和索引(以帮助用户快速输出),这可能会显示不需要的文本。

最好的方法(保证内容“消失”)是:
(1)添加白色区域(通过在顶层放置方块或将文本涂黑)
(2)使用一些工具将白色页面转换为图像(偏执的用户可能想要(2A)检查生成的图像和(2B)消除所有不需要的元数据,尤其是评论和注解)
(3)将这些图像拼接成一组页面以供共享和查看。

更新(包括支持材料):
因为有人认为这个答案有错误。

几乎相同的过程列于此文档第 11 页:

...
PDF 编辑过程包括:
•覆盖[[ 白茫茫 ]]每项机密信息都
用黑色矩形或黑色文本突出显示
•转换[[ 图像生成 ]]PDF 文档转换为多个 TIFF 图像文件
•转换并重新组装[[ 缝合 ]]将文件合并为一个 PDF 文档。...
注意
:转换为 TIFF 再转换回 PDF 会导致
文件不再可搜索, 和失去可访问性
因为文档结构和标签在此过程中丢失了。
使用第三方编辑插件可以避免此类问题重要
提示
:此时,您只需要
掩盖机密信息
删除信息
你需要“扁平化”文件通过转换为 TIFF 图像
...

我添加了一些文字和重点:
这 3 个阶段与我之前概述的流程相匹配。
提到的问题也是我之前列出的,即搜索能力和可访问性丧失。
虽然它说使用第三方工具来避免此类问题,但我认为使用此类第三方工具意味着将敏感内容包含在元数据中,某些用户可以并且会寻求提取。我认为应该避免这些情况,“仅图像”将是最安全的方式,即使会失去搜索能力和可访问性。

“假设通过软件进行编辑”的陷阱是上市这里 :

(1)它列出了与(1A)希拉里·克林顿 / 西德尼·布卢门撒尔 / 利比亚,(1B)苹果 / 美国地方法院,(1C)花旗集团 / 社会保障号码 &(一维)保罗·马纳福特 / 俄罗斯。

(2)它还说这些“显而易见”的方法既无效又不万无一失:

(2A)将文本的颜色更改为白色。这可能使要编辑的选定单词看起来好像被隐藏了,但其余的元数据可以显示隐藏的文本。
(2B)使用注释工具进行涂黑:可以删除通过此类工具所做的编辑以显示底层文本。
(2C)删除单词或章节:元数据包含文档修订历史记录,可用于查看已删除的信息。
(2D)使用深色胶带或不透明记号笔:通常的做法是用深色胶带或记号笔覆盖敏感信息,然后将其扫描为 PDF 格式,而不是从物理上剪下敏感信息。但是,许多扫描仪足够灵敏,即使这些被覆盖的文字看起来不可见,它们也可以被扫描到。

综合所有这些,我认为此答案中列出的流程非常有效且万无一失!

答案2

对于可靠的编辑,我不知道有任何免费工具。因此,我有些怀疑(不是出于个人原因),您展示的方法是否真的足够可靠。

Acrobat Pro,如果我没记错的话,Foxit (Pro) 有编辑工具,可以真正删除内容以及任何相关的结构信息。然后,还有长期的行业标准,Appligent 的 Redax。使用这样的工具。它可能物超所值……

答案3

我支持 SumatraPDF,但它受到投诉,因为将 PDF 打印为图像占用太多内存,并且无法搜索元数据!

打印前请点击此处
在此处输入图片描述

保存“白化”后,文本通常仍然可以选择、搜索和恢复,而且白化本身也会泄露更多细节,例如何时(可能在哪里)以及可能由谁执行。

在此处输入图片描述

一旦打印为图像,则只有页面可供选择除了重印外,几乎没有其他内容会保留下来。当然,您需要对页面进行 OCR 处理,以方便残障人士查看。

在此处输入图片描述

有一些方法可以简单地放置 REDACTION 注释“重要提示”以供检查,然后将剩余的可选内容重新标记到空的/空白的新容器 PDF 中(但这不是 PDF 阅读器的功能。)

相关内容