如何从使用补充私人用途字符的 PDF 中获取 CJK Unicode 字符？

2024-6-17 • tag-icon

pdf unicode chinese

如何从使用补充私人用途字符的 PDF 中获取 CJK Unicode 字符？

我有几个 PDF 文档（例如这个) 看起来像是使用标准汉字书写的，但是当我提取文本时，发现它是使用 Unicode 补充私有使用区域中的字符进行编码的。

是否有可靠的方法将私有使用字符映射回适当的 CJK 字符？

答案1

总体流程可能是

从 PDF 中提取字体
尝试将字体与不同的已知编码进行比较，看看它是否是其中之一
或者它可能是私人使用的东西
如果知道编码是什么，则通过检查转换表找出反向关系，否则从 pdf 中提取字体进行处理

相关内容