pdf 文件：“pdfid”的结果

Question

pdfid 显然在计算 obj/endobj 对方面做得很糟糕 - 在您的特定示例中，奇怪的“obj”是 FlateDecode 流的一部分：

$ cat pdf.pl
use Compress::Zlib qw(inflateInit Z_STREAM_END);
use strict;
my ($o);
while(<>){
        $o -= s/\bendobj\b//g;
        $o += s/\b\d+\s+\d+\s+obj\b//g;
        if(/\bstream\s*$/){
                local $/ = "endstream"; my $s = <>; $s =~ s/\s*endstream$//;
                if($s =~ /(\w*obj)/){
                        my ($d, $err) = inflateInit->inflate($s);
                        if(length($s) == 0 && $err == Z_STREAM_END){
                                warn "innocuous '$1' in well formed stream\n";
                        }else{
                                warn "WARNING: inflateInit: $err\n";
                        }
                }
        }
        if(/(\w*obj)\b/){ warn "WARNING: possible stray $1\n" }
}
warn "WARNING: unbalanced obj/endobj: $o\n" if $o;
$ perl pdf.pl using-freedos-24.pdf
innocuous 'obj' in well formed stream

注意：这只是为了说明当前的问题；不要用它来检查 pdf 是否安全;-)

pdf 格式相当麻烦且复杂；你确实需要一个成熟的解析器来理解它的结构。能够做到这一点（为了正确识别恶意 pdf）的程序本身正在成为攻击媒介——没有理由相信临时解析器比 libpoppler 或 libmupdf 更安全。

Answer 1

pdfid 显然在计算 obj/endobj 对方面做得很糟糕 - 在您的特定示例中，奇怪的“obj”是 FlateDecode 流的一部分：

$ cat pdf.pl
use Compress::Zlib qw(inflateInit Z_STREAM_END);
use strict;
my ($o);
while(<>){
        $o -= s/\bendobj\b//g;
        $o += s/\b\d+\s+\d+\s+obj\b//g;
        if(/\bstream\s*$/){
                local $/ = "endstream"; my $s = <>; $s =~ s/\s*endstream$//;
                if($s =~ /(\w*obj)/){
                        my ($d, $err) = inflateInit->inflate($s);
                        if(length($s) == 0 && $err == Z_STREAM_END){
                                warn "innocuous '$1' in well formed stream\n";
                        }else{
                                warn "WARNING: inflateInit: $err\n";
                        }
                }
        }
        if(/(\w*obj)\b/){ warn "WARNING: possible stray $1\n" }
}
warn "WARNING: unbalanced obj/endobj: $o\n" if $o;
$ perl pdf.pl using-freedos-24.pdf
innocuous 'obj' in well formed stream

注意：这只是为了说明当前的问题；不要用它来检查 pdf 是否安全;-)

pdf 格式相当麻烦且复杂；你确实需要一个成熟的解析器来理解它的结构。能够做到这一点（为了正确识别恶意 pdf）的程序本身正在成为攻击媒介——没有理由相信临时解析器比 libpoppler 或 libmupdf 更安全。

pdf 文件：“pdfid”的结果

答案1

相关内容