如何使用 GNU/Linux 工具将此字符串转换为日语？

Question

管道是操作系统的一个功能，它与字节缓冲区一起工作，并且不会以任何方式解释其内容。因此管道文本不会传到 bash 和尤其永远不会通过 'readline'。粘贴为命令行参数的文本会。（是的，readline 和终端都可以过滤掉控制字符作为安全措施。）

您的文件实际上是两种编码的混合，windows-1252和iso8859-1，因为它们使用 C1 控制字符块（0x80..0x9F）的方式不同。

ISO 8859-1 将整个范围用于控制字符，字节 0x80..0x9F 对应于 Unicode 代码点 U+0080..U+009F。
Windows-1252不能表示 C1 控制字符；它使用此范围的大部分内容作为可打印字符，并且有一些“漏洞” - 即未分配任何内容的字节值（0x81、0x8D、0x8F、0x90、0x9D）。
否则，这两种编码在 0x00..0x7F 和 0xA0..0xFF 范围内是相同的。

让我们来看看你的“坏”输入文件的第一行，将其从 UTF-16 解码为 Unicode 文本，并将不可打印的字符转义：

\u0081@\u0081™TdaŽ®\u008FÆ‚êƒ~ƒNƒXƒgƒŒ\u0081[ƒg\u0081EƒrƒLƒjver1.11d1.d2\u0081iƒrƒLƒjƒ‚ƒfƒ‹ver.1.1\u0090³Ž®”z•z”Å\u0081j\n

您可以看到\u0081(U+0081)，它映射到 ISO 8859-1 中的字节 0x81，但不能在 Windows-1252 中编码。
您还可以看到符号ƒ(U+0192)，它映射到 Windows-1252 中的 0x83，但在 ISO 8859-1 中根本不存在。

因此，诀窍是在可能的情况下使用 Windows-1252，并使用 ISO 8859-1 作为后备，并针对每个代码点单独决定。（libiconv 可以通过“ICONV_SET_FALLBACKS”执行此操作，但 CLI 工具iconv不能。）编写自己的工具很容易：

#!/usr/bin/env python3
with open("/dev/stdin", "rb") as infd:
    with open("/dev/stdout", "wb") as outfd:
        for rune in infd.read().decode("utf-16"):
            try:
                chr = rune.encode("windows-1252")
            except UnicodeEncodeError:
                chr = rune.encode("iso8859-1")
            outfd.write(chr)
            # outputs shift-jis

请注意，只有一半你的输入文件是错误编码的 Shift-JIS。另一半（英语）完全符合 UTF-16 编码；幸运的是，Shift-JIS 会将其通过，因此不需要手动拆分：

#!/usr/bin/env python3
with open("éΦé╟é▌üEé╓é╚é┐éσé▒éªéΦé⌐.txt", "r", encoding="utf-16") as infd:
    with open("りどみ・へなちょこえりか.txt", "w", encoding="utf-8") as outfd:
        buf = b""
        for rune in infd.read():
            try:
                buf += rune.encode("windows-1252")
            except UnicodeEncodeError:
                try:
                    buf += rune.encode("iso8859-1")
                except UnicodeEncodeError:
                    buf += rune.encode("shift-jis")
        outfd.write(buf.decode("shift-jis"))

Answer 1