我有超过 100,000 个 .pdf 文件。我需要从中找出损坏的文件。
有没有办法获取已损坏的文件,或反之亦然,获取正在运行的文件(以自动化的方式,而不是手动逐个检查文件)?
我搜索了很多,但没找到。所有结果都显示修复损坏 PDF 的软件。
答案1
您可以使用 Ghostscript 之类的东西来读取它们,并将它们转换为不写入文件的位图图像(例如,在 Linux 上将输出重定向到 /dev/null)。脚本可以检查返回代码和错误消息。
我有超过 100,000 个 .pdf 文件。我需要从中找出损坏的文件。
有没有办法获取已损坏的文件,或反之亦然,获取正在运行的文件(以自动化的方式,而不是手动逐个检查文件)?
我搜索了很多,但没找到。所有结果都显示修复损坏 PDF 的软件。
您可以使用 Ghostscript 之类的东西来读取它们,并将它们转换为不写入文件的位图图像(例如,在 Linux 上将输出重定向到 /dev/null)。脚本可以检查返回代码和错误消息。