重置 PDF 文本中的 Unicode 映射

Question

示例 PDF 编码正确：它包含字体到 unicode 表，如果我尝试使用进行复制粘贴mupdf，第二段中 Хлебникова 中的连字符将变为 U+00AD SOFT HYPHEN。因此，如果需要，可以通过一些后处理来连接单词。

不幸的是，许多 PDF 工具对 Unicode 的支持已经中断。

识别 PDF 中的空格很困难，因为 PDF 格式不描述空格，它只描述字形在页面上的位置。因此 ebook-convert 中的空格猜测算法似乎不是最优的，但这与编码无关。

据我所知，mupdf它不包含批量提取文本的工具，但谷歌搜索可以找到例如这第三方代码。我还没试过。

Answer 1

示例 PDF 编码正确：它包含字体到 unicode 表，如果我尝试使用进行复制粘贴mupdf，第二段中 Хлебникова 中的连字符将变为 U+00AD SOFT HYPHEN。因此，如果需要，可以通过一些后处理来连接单词。

不幸的是，许多 PDF 工具对 Unicode 的支持已经中断。

识别 PDF 中的空格很困难，因为 PDF 格式不描述空格，它只描述字形在页面上的位置。因此 ebook-convert 中的空格猜测算法似乎不是最优的，但这与编码无关。

据我所知，mupdf它不包含批量提取文本的工具，但谷歌搜索可以找到例如这第三方代码。我还没试过。

相关内容