下载的PDF和嵌入XML的相同PDF之间的原始文本差异

2024-6-19 • tag-icon

我正在查看 SEC 的 EDGAR 数据库中公开的公司文件。对于每份文件，都有一个 .txt 文件，其中包含有关该文件的详细信息，格式类似于 XML（我是初学者）。有时这是立即有用的文本，但在少数情况下，信息是一个 PDF 文件，似乎嵌入在看起来像 ASCII 的原始格式中。例如，

<PDF>
begin 644 filename1.pdf
M)5!$1BTQ+C4-)>+CS],-"C(X(#`@;V)J#3P\+TQI;F5A<FEZ960@,2],(#0T
M-34Y+T\@,S`O12`R-S@T,B].(#0O5"`T-#,P,B]((%L@-#0Q(#(P.%T^/@UE
M;F1O8FH-("`@("`@("`@("`@("`@("`@#0HS."`P(&]B:@T\/"],96YG=&@@
M-C,O4F]O="`R.2`P(%(O241;/$1#0S%%,T$W,S9%0S8V-#`R-C-$.3DS1C(R
...
[...lots of text like this...]
...
)#0HE)45/1@T*
`
end
</PDF>

它是原始的，这一点并不奇怪。令我这个新手感到惊讶的是：(1) 如果我尝试将原始文本复制/粘贴到 Notepad++ 中并另存为 .pdf，Acrobat 无法读取该文件；(2) 当我（使用 Chrome）从文件中下载实际的 .pdf（可在 EDGAR 系统的其他地方找到）并在 Notepad++ 中打开它时，原始文本看起来很多与 XML 文件原始文本不同，尽管我期望它们编码相同的文件。例如，

%PDF-1.5
%âãÏÓ
28 0 obj
<</Linearized 1/L 44559/O 30/E 27842/N 4/T 44302/H [ 441 208]>>
endobj

38 0 obj
<</Length 63/Root 29 0 R/ID[<DCC1E3A736EC6640263D993F227A4DC8><71A0C1AA5F566D44A5466B14A0F219D4>]/Info 27 0 R/Filter/FlateDecode/W[1 2 1]/Index[28 23]/DecodeParms<</Columns 4/Predictor 12>>/Size 51/Prev 44303/Type/XRef>>stream
xÚbbd``b`ª@‚±  H0{    ¶‡@‚»Ä
Ö§a¬Ÿ˜Vƒt00’Fügœõ
 À =¸   ê
endstream
endobj
...

我正在谈论的文件可以在这里找到：
.txt 文件 .pdf 文件

为什么 Acrobat 无法读取 XML .txt 文件中的原始文本？有没有办法轻松更改它以使其可读？为什么当我下载实际的 PDF 时，原始文本看起来如此不同？它们是同一文件的不同表示吗？还是发布的 .pdf 实际上与从 .txt 文件中提取的文件有很大不同？

我尝试搜索有关 ASCII 和不同类型的 Unicode 的信息，并发现每个软件开发人员必须绝对、积极地了解有关 Unicode 和字符集的最低要求（没有借口！），但没有看到如何将其应用于 PDF 文件。我尝试搜索如何提取嵌入在 XML 中的 PDF 文件，但没有找到有用的答案。我尝试在 Notepad++ 中转换编码类型，但没有结果。

相关内容