从 PDF 中提取文本?

从 PDF 中提取文本?

有一个 PDF 文件,主要包含文本。但是这些文本的某些部分无法选择和复制:

在此处输入图片描述

当我选择这个时:

在此处输入图片描述

所以:

终极乐观主义者

变成

最后。雾

是什么原因造成的?我能以某种方式克服这个限制吗?

答案1

这可能是因为编写 PDF 的程序已经“扁平化”了“ti”结扎变成图形线绘制/填充对象。

这可能是因为您粘贴文本的目标无法识别“ti”连字符编码。

如果您的图像代表 PDF 查看器本身中的文本选择,则第一种情况似乎更有可能出现。


从所有可能的 PDF 中提取纯文本还存在许多其他难题。

因此,对此可能没有什么简单的解决办法。

相关内容