有没有简单的方法来识别 PDF 是否是扫描的？

Question 1

Shell脚本

如果pdf文件包含图像（插入文档中文本旁边或整个页面，即“扫描的 PDF”），则文件通常（可能总是）包含字符串/Image/。
用同样的方式你可以搜索字符串/Text判断 pdf 文件是否包含文本（未扫描）。

我编写了 shellscript ，在大多数情况下它可能适用于您的文件。shellscript在文件中pdf-text-or-image查找文本字符串/Image/和。/Textpdf

#!/bin/bash

echo "shellscript $0"
ls --color --group-directories-first
read -p "Is it OK to use this shellscript in this directory? (y/N) " ans
if [ "$ans" != "y" ]
then
 exit
fi

mkdir -p scanned
mkdir -p text
mkdir -p "s-and-t"

for file in *.pdf
do
 grep -aq '/Image/' "$file"
 if [ $? -eq 0 ]
 then
  image=true
 else
  image=false
 fi
 grep -aq '/Text' "$file"
 if [ $? -eq 0 ]
 then
  text=true
 else
  text=false
 fi


 if $image && $text
 then
  mv "$file" "s-and-t"
 elif $image
 then
  mv "$file" "scanned"
 elif $text
 then
  mv "$file" "text"
 else
  echo "$file undecided"
 fi
done

使 shellscript 可执行，

chmod ugo+x pdf-text-or-image

将目录更改为文件所在位置pdf并运行 shellscript。

已识别的文件将移动到以下子目录

scanned
text
s-and-t（适用于同时包含 [扫描？] 图像和文本内容的文档）

未识别的文件对象“UFO”仍留在当前目录中。

测试

AR-G1002.pdf我使用您的两个文件和AR-G1003.pdf以及一些我自己的pdf文件（我使用 Libre Office Impress 创建）测试了 shellscript 。

$ ./pdf-text-or-image
shellscript ./pdf-text-or-image
s-and-t                                 mkUSB-quick-start-manual-11.pdf    mkUSB-quick-start-manual-nox-11.pdf
scanned                                 mkUSB-quick-start-manual-12-0.pdf  mkUSB-quick-start-manual-nox.pdf
text                                    mkUSB-quick-start-manual-12.pdf    mkUSB-quick-start-manual.pdf
AR-G1002.pdf                            mkUSB-quick-start-manual-74.pdf    OBI-quick-start-manual.pdf
AR-G1003.pdf                            mkUSB-quick-start-manual-75.pdf    oem.pdf
DescriptionoftheOneButtonInstaller.pdf  mkUSB-quick-start-manual-8.pdf     pdf-text-or-image
GrowIt.pdf                              mkUSB-quick-start-manual-9.pdf     pdf-text-or-image0
list-files.pdf                          mkUSB-quick-start-manual-bas.pdf   README.pdf
Is it OK to use this shellscript in this directory? (y/N) y

$ ls -1 *
pdf-text-or-image
pdf-text-or-image0

s-and-t:
DescriptionoftheOneButtonInstaller.pdf
GrowIt.pdf
mkUSB-quick-start-manual-11.pdf
mkUSB-quick-start-manual-12-0.pdf
mkUSB-quick-start-manual-12.pdf
mkUSB-quick-start-manual-8.pdf
mkUSB-quick-start-manual-9.pdf
mkUSB-quick-start-manual.pdf
OBI-quick-start-manual.pdf
README.pdf

scanned:
AR-G1002.pdf

text:
AR-G1003.pdf
list-files.pdf
mkUSB-quick-start-manual-74.pdf
mkUSB-quick-start-manual-75.pdf
mkUSB-quick-start-manual-bas.pdf
mkUSB-quick-start-manual-nox-11.pdf
mkUSB-quick-start-manual-nox.pdf
oem.pdf

我们希望

你的文件中没有UFO
文本与扫描/图像的排序正确

Answer

Shell脚本

如果pdf文件包含图像（插入文档中文本旁边或整个页面，即“扫描的 PDF”），则文件通常（可能总是）包含字符串/Image/。
用同样的方式你可以搜索字符串/Text判断 pdf 文件是否包含文本（未扫描）。

我编写了 shellscript ，在大多数情况下它可能适用于您的文件。shellscript在文件中pdf-text-or-image查找文本字符串/Image/和。/Textpdf

#!/bin/bash

echo "shellscript $0"
ls --color --group-directories-first
read -p "Is it OK to use this shellscript in this directory? (y/N) " ans
if [ "$ans" != "y" ]
then
 exit
fi

mkdir -p scanned
mkdir -p text
mkdir -p "s-and-t"

for file in *.pdf
do
 grep -aq '/Image/' "$file"
 if [ $? -eq 0 ]
 then
  image=true
 else
  image=false
 fi
 grep -aq '/Text' "$file"
 if [ $? -eq 0 ]
 then
  text=true
 else
  text=false
 fi


 if $image && $text
 then
  mv "$file" "s-and-t"
 elif $image
 then
  mv "$file" "scanned"
 elif $text
 then
  mv "$file" "text"
 else
  echo "$file undecided"
 fi
done

使 shellscript 可执行，

chmod ugo+x pdf-text-or-image

将目录更改为文件所在位置pdf并运行 shellscript。

已识别的文件将移动到以下子目录

scanned
text
s-and-t（适用于同时包含 [扫描？] 图像和文本内容的文档）

未识别的文件对象“UFO”仍留在当前目录中。

测试

AR-G1002.pdf我使用您的两个文件和AR-G1003.pdf以及一些我自己的pdf文件（我使用 Libre Office Impress 创建）测试了 shellscript 。

$ ./pdf-text-or-image
shellscript ./pdf-text-or-image
s-and-t                                 mkUSB-quick-start-manual-11.pdf    mkUSB-quick-start-manual-nox-11.pdf
scanned                                 mkUSB-quick-start-manual-12-0.pdf  mkUSB-quick-start-manual-nox.pdf
text                                    mkUSB-quick-start-manual-12.pdf    mkUSB-quick-start-manual.pdf
AR-G1002.pdf                            mkUSB-quick-start-manual-74.pdf    OBI-quick-start-manual.pdf
AR-G1003.pdf                            mkUSB-quick-start-manual-75.pdf    oem.pdf
DescriptionoftheOneButtonInstaller.pdf  mkUSB-quick-start-manual-8.pdf     pdf-text-or-image
GrowIt.pdf                              mkUSB-quick-start-manual-9.pdf     pdf-text-or-image0
list-files.pdf                          mkUSB-quick-start-manual-bas.pdf   README.pdf
Is it OK to use this shellscript in this directory? (y/N) y

$ ls -1 *
pdf-text-or-image
pdf-text-or-image0

s-and-t:
DescriptionoftheOneButtonInstaller.pdf
GrowIt.pdf
mkUSB-quick-start-manual-11.pdf
mkUSB-quick-start-manual-12-0.pdf
mkUSB-quick-start-manual-12.pdf
mkUSB-quick-start-manual-8.pdf
mkUSB-quick-start-manual-9.pdf
mkUSB-quick-start-manual.pdf
OBI-quick-start-manual.pdf
README.pdf

scanned:
AR-G1002.pdf

text:
AR-G1003.pdf
list-files.pdf
mkUSB-quick-start-manual-74.pdf
mkUSB-quick-start-manual-75.pdf
mkUSB-quick-start-manual-bas.pdf
mkUSB-quick-start-manual-nox-11.pdf
mkUSB-quick-start-manual-nox.pdf
oem.pdf

我们希望

你的文件中没有UFO
文本与扫描/图像的排序正确

Question 2

将所有.pdf 文件放在一个文件夹中。
该文件夹中没有 .txt 文件。
在终端中将目录更改为该文件夹cd <path to dir>
为未扫描的文件再创建一个目录。例如：

mkdir ./x 
for file in *.pdf; do
    if [ $(pdftotext "$file")"x" == "x" ] ; then mv "$file" ./x; fi
rm *.txt
done

所有 pdf 扫描文件将保留在该文件夹中，其他文件将移动到另一个文件夹中。

Answer

将所有.pdf 文件放在一个文件夹中。
该文件夹中没有 .txt 文件。
在终端中将目录更改为该文件夹cd <path to dir>
为未扫描的文件再创建一个目录。例如：

mkdir ./x 
for file in *.pdf; do
    if [ $(pdftotext "$file")"x" == "x" ] ; then mv "$file" ./x; fi
rm *.txt
done

所有 pdf 扫描文件将保留在该文件夹中，其他文件将移动到另一个文件夹中。

Question 3

如果这实际上更多的是检测 PDF通过扫描创建而不是pdf 中有图像而不是文本那么您可能需要深入研究文件的元数据，而不仅仅是内容。

一般而言，对于我在我的计算机上找到的文件和您的测试文件，以下情况属实：

扫描文件每页少于 1000 个字符，而非扫描文件每页总是超过 1000 个字符
多个独立扫描文件的 PDF 创建者均为“Canon”，可能指的是 Canon 扫描仪软件
创建者为“Microsoft Word”的 PDF 很可能不会被扫描，因为它们是 Word 导出的。但有人可以扫描为 Word，然后导出为 PDF - 有些人非常奇怪的工作流程。

我目前正在使用 Windows，因此我使用了node.js以下示例：

const fs = require("mz/fs");
const pdf_parse = require("pdf-parse");
const path = require("path");


const SHOW_SCANNED_ONES = process.argv.indexOf("scanned") != -1;

const DEBUG = process.argv.indexOf("debug") != -1;
const STRICT = process.argv.indexOf("strict") != -1;

const debug = DEBUG ? console.error : () => { };

(async () => {
    const pdfs = (await fs.readdir(".")).filter((fname) => { return fname.endsWith(".pdf") });

    for (let i = 0, l = pdfs.length; i < l; ++i) {
        const pdffilename = pdfs[i];
        try {
            debug("\n\nFILE: ", pdffilename);
            const buffer = await fs.readFile(pdffilename);
            const data = await pdf_parse(buffer);

            if (!data.info)
                data.indo = {};
            if (!data.metadata) {
                data.metadata = {
                    _metadata: {}
                };
            }


            // PDF info
            debug(data.info);
            // PDF metadata
            debug(data.metadata);
            // text length
            const textLen = data.text ? data.text.length : 0;
            const textPerPage = textLen / (data.numpages);
            debug("Text length: ", textLen);
            debug("Chars per page: ", textLen / data.numpages);
            // PDF.js version
            // check https://mozilla.github.io/pdf.js/getting_started/
            debug(data.version);

            if (evalScanned(data, textLen, textPerPage) == SHOW_SCANNED_ONES) {
                console.log(path.resolve(".", pdffilename));
            }
        }
        catch (e) {
            if (strict && !debug) {
                console.error("Failed to evaluate " + item);
            }
            {
                debug("Failed to evaluate " + item);
                debug(e.stack);
            }
            if (strict) {
                process.exit(1);
            }
        }
    }
})();
const IS_CREATOR_CANON = /canon/i;
const IS_CREATOR_MS_WORD = /microsoft.*?word/i;
// just defined for better clarity or return values
const IS_SCANNED = true;
const IS_NOT_SCANNED = false;
function evalScanned(pdfdata, textLen, textPerPage) {
    if (textPerPage < 300 && pdfdata.numpages>1) {
        // really low number, definitelly not text pdf
        return IS_SCANNED;
    }
    // definitelly has enough text
    // might be scanned but OCRed
    // we return this if no 
    // suspition of scanning is found
    let implicitAssumption = textPerPage > 1000 ? IS_NOT_SCANNED : IS_SCANNED;
    if (IS_CREATOR_CANON.test(pdfdata.info.Creator)) {
        // this is always scanned, canon is brand name
        return IS_SCANNED;
    }
    return implicitAssumption;
}

要运行它，您需要安装 Node.js（应该是一个命令）并且还需要调用：

npm install mz pdf-parse

用法：

node howYouNamedIt.js [scanned] [debug] [strict]

 - scanned show PDFs thought to be scanned (otherwise shows not scanned)
 - debug shows the debug info such as metadata and error stack traces
 - strict kills the program on first error

此示例不被视为完成的解决方案，但通过标志debug，您可以深入了解文件的元信息：

FILE:  BR-L1411-3-scanned.pdf
{ PDFFormatVersion: '1.3',
  IsAcroFormPresent: false,
  IsXFAPresent: false,
  Creator: 'Canon ',
  Producer: ' ',
  CreationDate: 'D:20131212150500-03\'00\'',
  ModDate: 'D:20140709104225-03\'00\'' }
Metadata {
  _metadata:
   { 'xmp:createdate': '2013-12-12T15:05-03:00',
     'xmp:creatortool': 'Canon',
     'xmp:modifydate': '2014-07-09T10:42:25-03:00',
     'xmp:metadatadate': '2014-07-09T10:42:25-03:00',
     'pdf:producer': '',
     'xmpmm:documentid': 'uuid:79a14710-88e2-4849-96b1-512e89ee8dab',
     'xmpmm:instanceid': 'uuid:1d2b2106-a13f-48c6-8bca-6795aa955ad1',
     'dc:format': 'application/pdf' } }
Text length:  772
Chars per page:  2
1.10.100
D:\web\so-odpovedi\pdf\BR-L1411-3-scanned.pdf

我编写的简单函数对我在计算机上找到的文档（包括您的示例）100% 成功。我根据运行程序之前文件的状态命名文件，以便能够查看结果是否正确。

D:\xxxx\pdf>node detect_scanned.js scanned
D:\xxxx\pdf\AR-G1002-scanned.pdf
D:\xxxx\pdf\AR-G1002_scanned.pdf
D:\xxxx\pdf\BR-L1411-3-scanned.pdf
D:\xxxx\pdf\WHO_TRS_696-scanned.pdf

D:\xxxx\pdf>node detect_scanned.js
D:\xxxx\pdf\AR-G1003-not-scanned.pdf
D:\xxxx\pdf\ASEE_-_thermoelectric_paper_-_final-not-scanned.pdf
D:\xxxx\pdf\MULTIMODE ABSORBER-not-scanned.pdf
D:\xxxx\pdf\ReductionofOxideMineralsbyHydrogenPlasma-not-scanned.pdf

您可以使用调试模式以及少量编程来大大改善结果。您可以将程序的输出传递给其他程序，每行始终有一个完整路径。

Answer

如果这实际上更多的是检测 PDF通过扫描创建而不是pdf 中有图像而不是文本那么您可能需要深入研究文件的元数据，而不仅仅是内容。

一般而言，对于我在我的计算机上找到的文件和您的测试文件，以下情况属实：

扫描文件每页少于 1000 个字符，而非扫描文件每页总是超过 1000 个字符
多个独立扫描文件的 PDF 创建者均为“Canon”，可能指的是 Canon 扫描仪软件
创建者为“Microsoft Word”的 PDF 很可能不会被扫描，因为它们是 Word 导出的。但有人可以扫描为 Word，然后导出为 PDF - 有些人非常奇怪的工作流程。

我目前正在使用 Windows，因此我使用了node.js以下示例：

const fs = require("mz/fs");
const pdf_parse = require("pdf-parse");
const path = require("path");


const SHOW_SCANNED_ONES = process.argv.indexOf("scanned") != -1;

const DEBUG = process.argv.indexOf("debug") != -1;
const STRICT = process.argv.indexOf("strict") != -1;

const debug = DEBUG ? console.error : () => { };

(async () => {
    const pdfs = (await fs.readdir(".")).filter((fname) => { return fname.endsWith(".pdf") });

    for (let i = 0, l = pdfs.length; i < l; ++i) {
        const pdffilename = pdfs[i];
        try {
            debug("\n\nFILE: ", pdffilename);
            const buffer = await fs.readFile(pdffilename);
            const data = await pdf_parse(buffer);

            if (!data.info)
                data.indo = {};
            if (!data.metadata) {
                data.metadata = {
                    _metadata: {}
                };
            }


            // PDF info
            debug(data.info);
            // PDF metadata
            debug(data.metadata);
            // text length
            const textLen = data.text ? data.text.length : 0;
            const textPerPage = textLen / (data.numpages);
            debug("Text length: ", textLen);
            debug("Chars per page: ", textLen / data.numpages);
            // PDF.js version
            // check https://mozilla.github.io/pdf.js/getting_started/
            debug(data.version);

            if (evalScanned(data, textLen, textPerPage) == SHOW_SCANNED_ONES) {
                console.log(path.resolve(".", pdffilename));
            }
        }
        catch (e) {
            if (strict && !debug) {
                console.error("Failed to evaluate " + item);
            }
            {
                debug("Failed to evaluate " + item);
                debug(e.stack);
            }
            if (strict) {
                process.exit(1);
            }
        }
    }
})();
const IS_CREATOR_CANON = /canon/i;
const IS_CREATOR_MS_WORD = /microsoft.*?word/i;
// just defined for better clarity or return values
const IS_SCANNED = true;
const IS_NOT_SCANNED = false;
function evalScanned(pdfdata, textLen, textPerPage) {
    if (textPerPage < 300 && pdfdata.numpages>1) {
        // really low number, definitelly not text pdf
        return IS_SCANNED;
    }
    // definitelly has enough text
    // might be scanned but OCRed
    // we return this if no 
    // suspition of scanning is found
    let implicitAssumption = textPerPage > 1000 ? IS_NOT_SCANNED : IS_SCANNED;
    if (IS_CREATOR_CANON.test(pdfdata.info.Creator)) {
        // this is always scanned, canon is brand name
        return IS_SCANNED;
    }
    return implicitAssumption;
}

要运行它，您需要安装 Node.js（应该是一个命令）并且还需要调用：

npm install mz pdf-parse

用法：

node howYouNamedIt.js [scanned] [debug] [strict]

 - scanned show PDFs thought to be scanned (otherwise shows not scanned)
 - debug shows the debug info such as metadata and error stack traces
 - strict kills the program on first error

此示例不被视为完成的解决方案，但通过标志debug，您可以深入了解文件的元信息：

FILE:  BR-L1411-3-scanned.pdf
{ PDFFormatVersion: '1.3',
  IsAcroFormPresent: false,
  IsXFAPresent: false,
  Creator: 'Canon ',
  Producer: ' ',
  CreationDate: 'D:20131212150500-03\'00\'',
  ModDate: 'D:20140709104225-03\'00\'' }
Metadata {
  _metadata:
   { 'xmp:createdate': '2013-12-12T15:05-03:00',
     'xmp:creatortool': 'Canon',
     'xmp:modifydate': '2014-07-09T10:42:25-03:00',
     'xmp:metadatadate': '2014-07-09T10:42:25-03:00',
     'pdf:producer': '',
     'xmpmm:documentid': 'uuid:79a14710-88e2-4849-96b1-512e89ee8dab',
     'xmpmm:instanceid': 'uuid:1d2b2106-a13f-48c6-8bca-6795aa955ad1',
     'dc:format': 'application/pdf' } }
Text length:  772
Chars per page:  2
1.10.100
D:\web\so-odpovedi\pdf\BR-L1411-3-scanned.pdf

我编写的简单函数对我在计算机上找到的文档（包括您的示例）100% 成功。我根据运行程序之前文件的状态命名文件，以便能够查看结果是否正确。

D:\xxxx\pdf>node detect_scanned.js scanned
D:\xxxx\pdf\AR-G1002-scanned.pdf
D:\xxxx\pdf\AR-G1002_scanned.pdf
D:\xxxx\pdf\BR-L1411-3-scanned.pdf
D:\xxxx\pdf\WHO_TRS_696-scanned.pdf

D:\xxxx\pdf>node detect_scanned.js
D:\xxxx\pdf\AR-G1003-not-scanned.pdf
D:\xxxx\pdf\ASEE_-_thermoelectric_paper_-_final-not-scanned.pdf
D:\xxxx\pdf\MULTIMODE ABSORBER-not-scanned.pdf
D:\xxxx\pdf\ReductionofOxideMineralsbyHydrogenPlasma-not-scanned.pdf

您可以使用调试模式以及少量编程来大大改善结果。您可以将程序的输出传递给其他程序，每行始终有一个完整路径。

Question 4

据我所知，没有万无一失的方法，但是有一些策略。

PDF 中可能嵌入了一些文本，但这些文本可能不是您要查找的文本。例如，一些出版公司（如 Jstor）即使 PDF 未经过 OCR，也会在 PDF 中放置一些与版权相关的文本信息。

因此，一个好的策略是将 pdf 提供给 pdf 到 txt 转换器并计算字数。如果数字太低（完全主观的指标），那么可以合理地预期它没有 ocr。

下面我们有一个 bash 单行程序，可以对几个文件进行模拟（需要 parallel 和 poppler）：

find path/to/files/ -name "*.pdf" | parallel --progress -P3 pdftotext {} - | wc -w >> file.txt

这将计算目录中每个 pdf 文件的字数。然后，您可以筛选出字数低于 100 个的文件，例如 100 个字，然后将其输入到脚本中，以对其进行ocrmypdfocr 处理。

Answer

据我所知，没有万无一失的方法，但是有一些策略。

PDF 中可能嵌入了一些文本，但这些文本可能不是您要查找的文本。例如，一些出版公司（如 Jstor）即使 PDF 未经过 OCR，也会在 PDF 中放置一些与版权相关的文本信息。

因此，一个好的策略是将 pdf 提供给 pdf 到 txt 转换器并计算字数。如果数字太低（完全主观的指标），那么可以合理地预期它没有 ocr。

下面我们有一个 bash 单行程序，可以对几个文件进行模拟（需要 parallel 和 poppler）：

find path/to/files/ -name "*.pdf" | parallel --progress -P3 pdftotext {} - | wc -w >> file.txt

这将计算目录中每个 pdf 文件的字数。然后，您可以筛选出字数低于 100 个的文件，例如 100 个字，然后将其输入到脚本中，以对其进行ocrmypdfocr 处理。

有没有简单的方法来识别 PDF 是否是扫描的？

答案1

Shell脚本

测试

答案2

答案3

答案4

相关内容