我有一个俄语 PDF。它显示正常,可以选择和搜索,但文本是俄语 ASCII。因此,当我复制或搜索文本时,我得到的是 àèçéîö 这样的字符,这意味着编码被正确识别为 ASCII,但应用的是中欧代码页而不是俄语代码页。有没有办法修改文件以告诉 PDF 查看器使用哪个代码页?
答案1
简而言之,没有。您的 PDF 中的字体和/或字体元数据缺少从 PDF 字符代码到 unicode 代码点的映射。对于拉丁文本,这通常只是内置编码。对于其他字母表,/ToUnicode
会提供显式条目。您的文件两者都没有。
当然,这种映射不是从这些字体中挑选字形所必需的,因此文件显示良好。这就是为什么 PDF 文件(至少在早期版本的标准中)不需要有这样的映射的原因。
除了使用生成现代 PDF 的程序对文档进行栅格化和 OCR 处理外,我认为您陷入了困境。