带有奇怪源代码的 PDF - 可以从中检索任何内容吗?

带有奇怪源代码的 PDF - 可以从中检索任何内容吗?

我男朋友的弟弟上周末自杀了,留下了一份遗嘱……一份损坏的 PDF。我尝试使用各种在线服务对其进行修复,但无济于事。查看 PDF 的源代码,很明显发生了一些非常奇怪的事情。有大量重复的“ÿ”字符块,然后是 HTML 片段,包括部分“mergeOptions()”JavaScript 函数,看起来像是用于自动完成的东西。怎么会发生这种情况?PDF 应该只包含手写遗嘱的扫描件。我知道 PDF 文件在从一个设备传输到另一个设备时可能会损坏,但 HTML 页面怎么会混入源代码中呢?此外,它看起来像是我男朋友的弟弟可能会查阅的页面,因为它与他的工作有关,但不是他会在遗嘱中包含的内容。

修复文件似乎无济于事(尝试过 Foxit、Xpdf、GhostScript 和其他一些东西),但难道就没有办法恢复它吗?在乱码之间是类似于 PDF 代码的代码块。但即使我删除了乱码并将 PDF 标题添加到源代码中,PDF 仍然显示为空白页。

另外,有没有解释一下这个文件到底怎么了?这真是令人困惑。这个文件在硬盘上,所以我们一开始以为它可能在从笔记本电脑传输到硬盘的过程中被损坏了。但现在我们也从笔记本电脑上恢复了文件,发现它和硬盘一模一样。

如有任何帮助/建议我将不胜感激,谢谢!!

编辑以添加文件所含内容的示例:

ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ
ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ
ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿelse {
                        return false;
                    }
                };

            }
            if (options.categories !== undefined && options.categories instanceof Array) {

                var categories = [];
    enter code here
ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ
ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ
ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿU¢¢JGƒ€èZ    m[R}h‹—Ø$îõø»Ýïuâ;>ïØÂÍ šŒé¿‡÷£6ëÅÕ~            4;²*Õ •j,Mîîî¼i_Uš            Ö÷¿“È#æU­¼A·ñ€ŠïØi™[/±P‡¸cßé]_{×̵æ %»Ù¹²” C>{üŸ6¹0CWá½*€!ÿÿÿò—Š‹D ä>•wœn\ L’ê+ÙDD{99DqBúž²">H¾»lÌ/ÏéÝw×9\UÅ?Øý ÍÕ[nò­•b«Ú6'±ºþbÛ6ÞA±| Z0% ðô,à¤MûèÓ86/™¸Ù$\É|n‘8çcZ
áá Ó^½9šæ
4œA8®Âö¸.ÙÒ;lk8œ»
vú~þÿ{¾Äéôø¿ŽþÏZÑüv‹ù1Þý;uõüWÑxVÎßó(­ŸÎ÷åµméÖΟ hN½Ç>‚Îf“™¯…7Ü?÷ÿÓÿp>çþŸoíûÿÿÿà ¼è€í:!”õăb@Ùhr@(¥áíËÌó`@Æm•¨®6®ÛÔØ[³¹‰(ײ»®äM1ÈÖßþ÷—Ô,¬7…^½T
&Ðh?JáG¢=ìÒk8ƒìY I¡Ì¹°è°»?*s´ëœüTYÒ‹Aß'arO(ÌëÁ˜/HÉ;ˆ³çI80}ÎÐx6Ãç~üeÿ»'Qïµ]ø'«ü÷ﱺ '.îÞ¯õ ÿ
+ùû¹ééÏÑ÷ß            }wû¾BëxºŠþêúú.ûÕÞ¬ïÿyêã¼ïžªï½Wî^¬;ÏWÕûÿWï»ÓÕÃîù꾯ßw ð>qÀ  
UAš 3Æa)B®¾¿ÿóÙ&ÅžO_ÿõ/þ&‹ßd$ÙZÐŒ}Õ§Õj÷ר)Ö’š„Îô«Y.
®¼²ÞYR¿o–aDj.k1g¬üÛÆ‚o¿‘5¡OúÅú÷àœµN¤ñ8¿`šÓ­Ò”^7ùÄÔöf£_˜bJëUŸ¬¥nÚþN›u¥†ÿ—+ÿÉB_©¼¨& ùÝõ“ä‚NïÛòAml·¿V‰P„/²Fm?Ýô½V/QŸw{ösì×ÙÕú4Óo‹ts„Ì,ÜŠ5õ?Ó4ë°ˆz™:ź~ËÝ¡='–«ðÇAFì}{æ¯âü®²ü°ß{_a;ß»òÍwß—¶è¿áF †6ÒéAÔÔÛ¦ZZºº©HWY;¯`LA/Z%¼ƒEFhzm˜Bôû÷7‹ÿA#Yá±2ÕË5K-uJÇnõ'Tõß(´$T:{á³Ü¾6fI¤Ó¾—©$Ïýœÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ
ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ
ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ

JavaScript 只出现一次。之后是交替出现的 ÿ 字符块和上面显示的代码类型。文件以 ÿ 块开始和结束。我在此代码片段中缩短了它们 - 它们实际上要长得多。

我不知道这是否是共享文件的正确方法,但它是这样的:

https://1drv.ms/b/s!AnGtFF6JZrtsgWSEYq_UiU7ib0rQ?e=xJpgFg

非常感谢你们的帮助,说实话我真的很感动。暴力死亡是一件可怕的事情。

答案1

如果其中的 JPEG 仍然被编码为 JPEG,那么您应该能够像这样退出:

  1. 获取 JpegSnoop 的副本
  2. 将文件放到那里
  3. 忽略该工具的投诉
  4. 工具 > 向前图片搜索

在此处输入图片描述


编辑

现在有机会查看该文件:

如果熵为 0.99,则文件几乎不包含任何数据,即使是纯文本文件,熵也会更高。一般来说,熵越高,数据越多,而熵为零则意味着根本没有数据。这是一种快速评估文件可以容纳多少有用数据的方法。

我每天都会处理、恢复和修复 JPEG 数据,我可以自信地说您的文件根本不包含 JPEG 数据,甚至连片段都没有。

最有可能的是,您当前拥有的文件几乎毫无用处。

因此,这不是修复案例,您可以尝试查看是否可以恢复文件。因此,我会:

  • 要么咨询数据恢复专家,要么找到这样的人聚集的社区,建议:www.reddit.com/r/datarecovery/
  • 您可以自己做的是想象从中获取文件的驱动器:查看 ddrescue。
  • 获得图像文件后,请将驱动器放在一边并专门使用图像文件。
  • 使用文件恢复软件并确定是否可以恢复已删除的文档版本。
  • 如果没有结果,像 PhotoRec 这样的工具可以尝试恢复驱动器上的每一个 PDF 文件。
  • 因为在某个时候拍摄了物理文档的照片,您可能还考虑将搜索范围扩大到 JPEG 文件,看看后来嵌入到 PDF 文件中的 JPEG 是否仍然存在于某处。

答案2

首先,对您的损失深表遗憾。
除此之外还要面对数据恢复问题,这真的很不幸。
我完全理解那种感觉。我叔叔去世后,我也遇到过类似的情况,他的笔记本电脑硬盘坏了。

这感觉就像是硬盘损坏的情况,发生在 PDF 创建之后,在您第一次尝试读取文件之前。
似乎 chkdsk 或其他恢复工具“修复”了问题,但在此过程中将 PDF 与其他随机、不相关的数据(可能是浏览器缓存内容)合并在一起。
这并不罕见。没有自动修复解决方案是 100% 准确的。但在这种情况下,它真的很糟糕。ÿ
字符是这种情况的另一个指标。这是 unicode 0x00FF,重复的 00 和 FF 字节模式通常是空磁盘块的默认内容。如果在修复过程中 chkdsk 将其链接到文件中,这就是您通常会得到的结果。

更糟糕的是,如果 PDF 保存的是纸质文档的扫描件,则 PDF 中可能包含嵌入图像(可能是 JPG)。(PDF 本身无法存储二进制数据,它纯粹是一种矢量格式。二进制数据始终以另一种格式嵌入为 blob。图像通常为 JPEG,有时为 PNG 或 TIFF。)
因此,即使您可以修复 PDF 标头,您仍然需要处理嵌入图像中的损坏。修复该问题(图像的部分内容也会丢失/被覆盖)几乎是不可能的,因为大多数图像格式都有内部压缩,而修复损坏的压缩文件比修复未压缩文件要复杂几个数量级。

所以我担心这个 PDF 是损失了。

然而也许一切还没有失去。

检查整台计算机,看看是否有另一份副本隐藏在缓存/临时文件夹中。如果有备份,看看它们是否可以追溯到损坏发生之前。
还要查看您能找到的每个图像文件。如果遗嘱是扫描的,那么很有可能在导入 PDF 文件之前,它以某种图像格式保存在某个地方。
还要检查文字处理文档(doc、docx 等)。PDF 可能最初在 Word 或 Wordpad 中,然后“另存为 PDF”。原始文件可能仍然存在,可能以不同的名称。
(就我自己而言,我发现 3 个名为 Untitled.docx 的 Word 文档包含相关数据。我叔叔保存了它们,但从来没有费心给它们起一个合适的名字。)

还要考虑在线存储。如果 PDF 已备份到那里(例如 OneDrive),则可能是以前的好版本,仍可通过那里的版本历史记录获取。
还要检查他手机上的(在线)照片存储。可能“扫描”最初是纸质文件的照片,而那张照片仍然存在。

相关内容