我正在查看 SEC 的 EDGAR 数据库中公开的公司文件。对于每份文件,都有一个 .txt 文件,其中包含有关该文件的详细信息,格式类似于 XML(我是初学者)。有时这是立即有用的文本,但在少数情况下,信息是一个 PDF 文件,似乎嵌入在看起来像 ASCII 的原始格式中。例如,
<PDF>
begin 644 filename1.pdf
M)5!$1BTQ+C4-)>+CS],-"C(X(#`@;V)J#3P\+TQI;F5A<FEZ960@,2],(#0T
M-34Y+T\@,S`O12`R-S@T,B].(#0O5"`T-#,P,B]((%L@-#0Q(#(P.%T^/@UE
M;F1O8FH-("`@("`@("`@("`@("`@("`@#0HS."`P(&]B:@T\/"],96YG=&@@
M-C,O4F]O="`R.2`P(%(O241;/$1#0S%%,T$W,S9%0S8V-#`R-C-$.3DS1C(R
...
[...lots of text like this...]
...
)#0HE)45/1@T*
`
end
</PDF>
它是原始的,这一点并不奇怪。令我这个新手感到惊讶的是:(1) 如果我尝试将原始文本复制/粘贴到 Notepad++ 中并另存为 .pdf,Acrobat 无法读取该文件;(2) 当我(使用 Chrome)从文件中下载实际的 .pdf(可在 EDGAR 系统的其他地方找到)并在 Notepad++ 中打开它时,原始文本看起来很多与 XML 文件原始文本不同,尽管我期望它们编码相同的文件。例如,
%PDF-1.5
%âãÏÓ
28 0 obj
<</Linearized 1/L 44559/O 30/E 27842/N 4/T 44302/H [ 441 208]>>
endobj
38 0 obj
<</Length 63/Root 29 0 R/ID[<DCC1E3A736EC6640263D993F227A4DC8><71A0C1AA5F566D44A5466B14A0F219D4>]/Info 27 0 R/Filter/FlateDecode/W[1 2 1]/Index[28 23]/DecodeParms<</Columns 4/Predictor 12>>/Size 51/Prev 44303/Type/XRef>>stream
xÚbbd``b`ª@‚± H0{ ¶‡@‚»Ä
Ö§a¬Ÿ˜Vƒt00’Fügœõ
À =¸ ê
endstream
endobj
...
我正在谈论的文件可以在这里找到:
.txt 文件
.pdf 文件
为什么 Acrobat 无法读取 XML .txt 文件中的原始文本?有没有办法轻松更改它以使其可读?为什么当我下载实际的 PDF 时,原始文本看起来如此不同?它们是同一文件的不同表示吗?还是发布的 .pdf 实际上与从 .txt 文件中提取的文件有很大不同?
我尝试搜索有关 ASCII 和不同类型的 Unicode 的信息,并发现每个软件开发人员必须绝对、积极地了解有关 Unicode 和字符集的最低要求(没有借口!),但没有看到如何将其应用于 PDF 文件。我尝试搜索如何提取嵌入在 XML 中的 PDF 文件,但没有找到有用的答案。我尝试在 Notepad++ 中转换编码类型,但没有结果。