如何从使用补充私人用途字符的 PDF 中获取 CJK Unicode 字符?

如何从使用补充私人用途字符的 PDF 中获取 CJK Unicode 字符?

我有几个 PDF 文档(例如这个) 看起来像是使用标准汉字书写的,但是当我提取文本时,发现它是使用 Unicode 补充私有使用区域中的字符进行编码的。

是否有可靠的方法将私有使用字符映射回适当的 CJK 字符?

答案1

总体流程可能是

  • 从 PDF 中提取字体
  • 尝试将字体与不同的已知编码进行比较,看看它是否是其中之一
  • 或者它可能是私人使用的东西
  • 如果知道编码是什么,则通过检查转换表找出反向关系,否则从 pdf 中提取字体进行处理

相关内容