我有几个 PDF 文档(例如这个) 看起来像是使用标准汉字书写的,但是当我提取文本时,发现它是使用 Unicode 补充私有使用区域中的字符进行编码的。
是否有可靠的方法将私有使用字符映射回适当的 CJK 字符?
答案1
总体流程可能是
- 从 PDF 中提取字体
- 尝试将字体与不同的已知编码进行比较,看看它是否是其中之一
- 或者它可能是私人使用的东西
- 如果知道编码是什么,则通过检查转换表找出反向关系,否则从 pdf 中提取字体进行处理
我有几个 PDF 文档(例如这个) 看起来像是使用标准汉字书写的,但是当我提取文本时,发现它是使用 Unicode 补充私有使用区域中的字符进行编码的。
是否有可靠的方法将私有使用字符映射回适当的 CJK 字符?
总体流程可能是