将相同的文件聚集在一起，忽略空格和换行符

Question

您可以使用以下内容创建每个 XML 文件的“规范化”版本：

xmllint --nospace --format orginal.xml > normalized.xml

这将消除对 XML 来说“不重要”的空格、一致的缩进等等。之后，您可以用来cksum查找相同的归一化文件。

我会建议一个脚本：

for ORIGXML in *.xml
do
    xmllint --noblank --format "$ORIGXML" > "normalized.$ORIGXML"
    cksum "normalized.$ORIGXML" | sed 's/^normalized\.//' >> files.list
done
sort -k1.1 files.list > sorted.files

我不确定是否需要 MD5 校验和。你正在寻找重复的东西，而不是与反对你的邪恶对手一起进行密码学。

如果您正在寻找“几乎相同”的 XML 文件，您可以使用归一化压缩距离查看文件彼此之间的“距离”有多远。更简单地说，您可以gzip对bzip2XML 文件进行排序，然后根据压缩文件的大小进行排序。压缩文件大小越接近，XML 文件就越相似。

Answer 1

您可以使用以下内容创建每个 XML 文件的“规范化”版本：

xmllint --nospace --format orginal.xml > normalized.xml

这将消除对 XML 来说“不重要”的空格、一致的缩进等等。之后，您可以用来cksum查找相同的归一化文件。

我会建议一个脚本：

for ORIGXML in *.xml
do
    xmllint --noblank --format "$ORIGXML" > "normalized.$ORIGXML"
    cksum "normalized.$ORIGXML" | sed 's/^normalized\.//' >> files.list
done
sort -k1.1 files.list > sorted.files

我不确定是否需要 MD5 校验和。你正在寻找重复的东西，而不是与反对你的邪恶对手一起进行密码学。

如果您正在寻找“几乎相同”的 XML 文件，您可以使用归一化压缩距离查看文件彼此之间的“距离”有多远。更简单地说，您可以gzip对bzip2XML 文件进行排序，然后根据压缩文件的大小进行排序。压缩文件大小越接近，XML 文件就越相似。

将相同的文件聚集在一起，忽略空格和换行符

答案1

相关内容