如何比较多个（数千个）PDF？

Question 1

您绝对需要首先以某种方式按顺序将 1000 个文件与 300 个文件进行映射。

在最简单的情况下，你一方面会看到“CIDOC Ontology 2.0 (1).pdf”、“CIDOC Ontology 2.0 (2).pdf”和“CIDOC Ontology 2.0 (3).pdf”，另一方面会看到“CIDOC ontology.pdf”。

现在，我能想到的最佳方法是：

使用pdftk或pdf2json，提取 1000 组的页数，并查看总数是否与 300 组相对应：
```
12, 9, 10  vs.   31   = OK
12, 9, 10  vs    22   = BAD (and you might suspect section 2 is missing)
```
这种方法非常基础，无法识别三个部分的顺序混乱。
使用pdf2ps和ps2ascii，创建所有文件的文本版本。根据 PDF 流程，这些文本可能几乎难以辨认，但这无关紧要：如果运气好的话，用于合并文件的工具不会改变文本度量和分组。如果是这样，那么三个文件的串联将与第四个文件非常非常相似（如果不是，您将把它标记为异常）。因此，这些启发式方法应该有效：
- 这三个文件的“wc”输出的总和将等于（或非常接近）第四个文件的输出。
- 通过 cat file1 file2 file3 | sed -e "s#\s#\n#g" | sort 对三个文本文件或第四个文件进行 cat 处理，应该会产生几乎相同的单词列表（输出diff -Bbawd应该不超过三或四行；理想情况下，没有）。如果省略该| sort阶段，则应该可以识别出乱序的部分：如果已排序检查匹配而未排序检查不匹配，则您面临的是部分乱序的情况。

该sed部分将拆分单词，即使合并工具确实对文本做了一些改动，这也可能会有所帮助。字距调整的改变，以及 PDF 内部单词的拆分方式不同（“homeostasis”从“home osta sis”变成了“ho meos tas is”），将导致这还不够；但可能性不大。

我认为困难在于将原始文件与最终文件进行匹配。有了每个文件的样本，我可能可以编写一个脚本来运行比较。

Answer

您绝对需要首先以某种方式按顺序将 1000 个文件与 300 个文件进行映射。

在最简单的情况下，你一方面会看到“CIDOC Ontology 2.0 (1).pdf”、“CIDOC Ontology 2.0 (2).pdf”和“CIDOC Ontology 2.0 (3).pdf”，另一方面会看到“CIDOC ontology.pdf”。

现在，我能想到的最佳方法是：

使用pdftk或pdf2json，提取 1000 组的页数，并查看总数是否与 300 组相对应：
```
12, 9, 10  vs.   31   = OK
12, 9, 10  vs    22   = BAD (and you might suspect section 2 is missing)
```
这种方法非常基础，无法识别三个部分的顺序混乱。
使用pdf2ps和ps2ascii，创建所有文件的文本版本。根据 PDF 流程，这些文本可能几乎难以辨认，但这无关紧要：如果运气好的话，用于合并文件的工具不会改变文本度量和分组。如果是这样，那么三个文件的串联将与第四个文件非常非常相似（如果不是，您将把它标记为异常）。因此，这些启发式方法应该有效：
- 这三个文件的“wc”输出的总和将等于（或非常接近）第四个文件的输出。
- 通过 cat file1 file2 file3 | sed -e "s#\s#\n#g" | sort 对三个文本文件或第四个文件进行 cat 处理，应该会产生几乎相同的单词列表（输出diff -Bbawd应该不超过三或四行；理想情况下，没有）。如果省略该| sort阶段，则应该可以识别出乱序的部分：如果已排序检查匹配而未排序检查不匹配，则您面临的是部分乱序的情况。

该sed部分将拆分单词，即使合并工具确实对文本做了一些改动，这也可能会有所帮助。字距调整的改变，以及 PDF 内部单词的拆分方式不同（“homeostasis”从“home osta sis”变成了“ho meos tas is”），将导致这还不够；但可能性不大。

我认为困难在于将原始文件与最终文件进行匹配。有了每个文件的样本，我可能可以编写一个脚本来运行比较。

Question 2

您可以使用类似于 DNA 序列分析的序列比对过程。具体来说，是一种动态规划方法进行序列比对。

提取每个集合中每个 PDF 的文本，然后尝试将集合 1 中的每个单个文本序列与集合 2 中的每个较长的连接序列对齐。任何字母完美匹配可得一分，不匹配可得零分。总分是对齐序列之间的匹配数。您还可以允许在序列之间进行编辑，但要引入间隙。

该算法并不难，但可能需要一段时间才能运行。考虑到您提到的数据集大小，我猜它会在几个小时或一夜之间运行完成。

Answer

您可以使用类似于 DNA 序列分析的序列比对过程。具体来说，是一种动态规划方法进行序列比对。

提取每个集合中每个 PDF 的文本，然后尝试将集合 1 中的每个单个文本序列与集合 2 中的每个较长的连接序列对齐。任何字母完美匹配可得一分，不匹配可得零分。总分是对齐序列之间的匹配数。您还可以允许在序列之间进行编辑，但要引入间隙。

该算法并不难，但可能需要一段时间才能运行。考虑到您提到的数据集大小，我猜它会在几个小时或一夜之间运行完成。

相关内容