无法从 PDF 复制中文文本

无法从 PDF 复制中文文本

我尝试用 google docs 打开它,并尝试使用网站 i2orc 转换文件。但在这两种情况下,输出中都缺少中文字符,就像我从原始文件中复制/粘贴它们一样。是的,我可以从原始文件中复制它们,但不是完全复制。选择中文短语时会忽略某些字符,而选择其他字符。

与相关文件的链接:https://www.scribd.com/document/591991803/220826-HK-Gazette-34-Petitions-1

提示:搜索关键字“301”,可以找到一个很好的中文文本示例

有人能帮我吗?

答案1

万一有一天有人需要答案:打印 pdf 文本,裁剪以提高准确性,然后使用在线工具提取图像中的中文文本,例如https://www.i2ocr.com/free-online-chinese-traditional-ocr。我还没有尝试过用大文本,但用小短语可以准确识别。这是一个漫长的过程,但至少有效

相关内容