Word 未按预期转换非 Unicode 字符

2024-12-10 • tag-icon

我们的用户遇到了一个非常令人沮丧的问题，即 MS Word（在 Windows 中）如何处理非 Unicode 字符。这个问题在使用 Windows XP SP3 的 Word 2007 和 Word 2010 Beta 中都得到了证实；我怀疑它在 2003 中也是这样。

问题：

用户使用非 Unicode 字体创建文档，输入字符来表示科学计数法。例如，他输入 Mu (µ)。注意：我粘贴了符合 Unicode 标准的 Mu 以供参考。
用户打开文档并尝试将代表 Mu 的非 Unicode 字符复制/粘贴到 Web 浏览器中以进入我们的系统。它粘贴为无法识别的字符。这是意料之中的。
用户打开文档，选择非 Unicode 字符，将其字体调整为“Arial Unicode MS”，然后保存文档。他关闭/重新打开文档以进行妥善处理。重新打开后，他复制应该是 Unicode Mu 的内容并将其粘贴到 Web 浏览器中。它仍然显示为无法识别的字符。
用户创建一个新文档，将字体设置为“Arial Unciode MS”，然后创建一个 Mu。他将此 Mu 复制到 Web 浏览器中，然后它会以 Unicode 格式粘贴，正如预期的那样。

结论：

当选择 Unicode 字体时，Word 实际上并没有将非 Unicode 字符转换为 Unicode 字符。相反，它出于显示原因采取最佳猜测，但并未进行实际转换。

我该如何克服这个问题？

补充笔记：

请帮忙！

尝试使用Paste Special；应该有一个适用于 Unicode 文本的选项。

请注意，如果源文档是使用符号字体创建的，则这无济于事。 Windows 并不知道该字符与特定的 Unicode 字符相关，符号字体是在 Unicode 之前创建的，是为了满足某种需求，两者不能互换。

这是一个漫长的过程，但我通常会将此类文件转换为图像，然后通过任何 OCR 软件处理这些图像。这很有帮助。但我自己正在寻找更好的选择。

相关内容