UTF-8 解码器无法解码编码的字符串

UTF-8 解码器无法解码编码的字符串

我有一些我认为是 UTF-8 的编码值。现在我真的不知道它是否是 UTF-8,因为其他在线工具和解码 UTF-8 的步骤不起作用,但可用的开源工具是唯一对我有用的工具。实际的纯文本将使用韩语。

现在的问题是,该工具无法处理超过 100 个单词或更大的字符串,而且即使处理大约 50-60 个单词也需要很长时间。由于该工具是开源的,如果可能的话,我想在本地系统上运行该工具,这样也许我可以更快地工作或不受字符限制。

工具链接:-https://software.hixie.ch/utilities/cgi/unicode-decoder/utf8-decoder 您还可以检查此工具的父目录(通过从 URL 中删除当前位置返回到上一个目录),其中还存在其他文件,例如库等。

我想了解为什么互联网上所有其他解码器都无法针对我的字符串工作,而只有此工具能够成功?此外,如果可能的话,我如何在本地运行此工具。我有大量数据。

这是示例数据。

  1. 박서연
  2. 埃¹€ì‹ 埃ž
  3. ”œ ”€ì„œ
  4. 박미연
  5. 埃¹€ë¯¼ì˜
  6. 埃¹€ë¯¼ì˜
  7. 藝術本身
  8. 藝術本身
  9. 박미연
  10. ”œ ”€ì„œ

仅供参考,这些编码字符串是韩语名称。我的最终目标是实现韩语纯文本,而不是任何语言的翻译版本。

答案1

您看到的内容似乎是已损坏的 UTF,显示为 ANSI 编码。它可能来自一个文本文件,缺少 Unicode UTF BOM(字节顺序标记)

对于我来说,将文本粘贴到内置的 Windows 版记事本中,保存为 ANSI 编码,然后重新打开文件似乎可以解决问题。我得到以下信息박서연,,,,,,,,,,김신자유은서박미연김민영김민영이효진최유빈박미연유은서

在此处输入图片描述

只需这样做就足以让窗口查看文本并检测正确编码的文本。

另一种方法是 Notepad++。将编码设置为 ANSI 并粘贴文本。它看起来像乱码:

在此处输入图片描述

然后将编码设置为UTF-8:

在此处输入图片描述

相关内容