我们的用户遇到了一个非常令人沮丧的问题,即 MS Word(在 Windows 中)如何处理非 Unicode 字符。这个问题在使用 Windows XP SP3 的 Word 2007 和 Word 2010 Beta 中都得到了证实;我怀疑它在 2003 中也是这样。
问题:
- 用户使用非 Unicode 字体创建文档,输入字符来表示科学计数法。例如,他输入 Mu (µ)。注意:我粘贴了符合 Unicode 标准的 Mu 以供参考。
- 用户打开文档并尝试将代表 Mu 的非 Unicode 字符复制/粘贴到 Web 浏览器中以进入我们的系统。它粘贴为无法识别的字符。这是意料之中的。
- 用户打开文档,选择非 Unicode 字符,将其字体调整为“Arial Unicode MS”,然后保存文档。他关闭/重新打开文档以进行妥善处理。重新打开后,他复制应该是 Unicode Mu 的内容并将其粘贴到 Web 浏览器中。它仍然显示为无法识别的字符。
- 用户创建一个新文档,将字体设置为“Arial Unciode MS”,然后创建一个 Mu。他将此 Mu 复制到 Web 浏览器中,然后它会以 Unicode 格式粘贴,正如预期的那样。
结论:
当选择 Unicode 字体时,Word 实际上并没有将非 Unicode 字符转换为 Unicode 字符。相反,它出于显示原因采取最佳猜测,但并未进行实际转换。
我该如何克服这个问题?
- 我可以更改 Word 中的某些设置来强制转换吗?最好。
- 是否有一个“更清洁”的应用程序或 Word 宏可以做到这一点?
- 其他解决方案?
补充笔记:
- 使用 unicode 重新输入受影响的文档不是一种选择
- 在 Mac OS X 上使用最新版本的 Word 时,这不是问题。 (3) 中的样本情况会导致将 unicode Mu 粘贴到浏览器中。
请帮忙!
答案1
尝试使用Paste Special
;应该有一个适用于 Unicode 文本的选项。
请注意,如果源文档是使用符号字体创建的,则这无济于事。 Windows 并不知道该字符与特定的 Unicode 字符相关,符号字体是在 Unicode 之前创建的,是为了满足某种需求,两者不能互换。
答案2
这是一个漫长的过程,但我通常会将此类文件转换为图像,然后通过任何 OCR 软件处理这些图像。这很有帮助。但我自己正在寻找更好的选择。