按语言组织大量 PDF 文件

按语言组织大量 PDF 文件

有没有办法根据每个文件内的文本语言来组织 2500 个 PDF 文件。我有 2500 个不同语言的维护手册,我将它们放在一个文件夹中,我只需要提取英文文件。

在网上什么也没找到:-)

谢谢

答案1

一般情况下不行。就你这个具体情况来说,也许可以,但你得做大量工作。

一般来说

我确信 PDF 规范中没有任何内容要求必须存在表明 PDF 中文本主要语言的元数据。即使有,也有如此多不同的 PDF 制作软件应用程序,您可以肯定其中一些会忽略它或将其设置为通用值。

我确信您可以从使用任意文本编码的 PS 文件生成 PDF。这意味着您甚至无法保证可以从 PDF 内容中确定编码。因此,您无法确定是否能够提取文本来猜测语言。

具体案例

如果您的 PDF 全部来自同一来源,全部使用同一工具集生成,并且语言范围有限,那么编写程序或脚本可能可以实现您的目的。但是,不太可能有足够多的人有这种需求,因此很难找到适合您特定情况的现有解决方案。

相关内容