使用 iconv 和文件 - 如何更改不正确的字符编码设置？

Question

没有这样的设置。

一般来说，file不会“透露”任何外部元数据——它只会尝试探测文件类型和一些常见的文本编码。它通过猜测（它带有一个包含不同特征的大型数据库）来实现这一点，并且一些编码（例如 UTF-8 和 US-ASCII）具有可以可靠检测的不同特征，但许多其他编码在计算机看来是相同的。

例如，所有 ISO-8859-x 字符集看起来都很相似 - 它们都是使用相同字节范围的单字节编码，只是将它们映射到不同的字符。如果您有一个包含土耳其语文本的 ISO-8859-9（又名 Latin-5）文件，该file工具仍会认为它是 ISO-8859-1（又名 Latin-1），实际上任何程序都可以解码将其作为 ISO-8859-1 – 字母确实是错误的，但解码器无法知道这一点。

这同样适用于 Windows-125x 字符集、IBM 字符集以及最有可能的 MacOS 代码页。

简而言之，没有可以设置的文件属性（至少 Windows 和 macOS 都无法理解）来表示“此 .txt 文件使用 Latin-5”。就像该file工具一样，您的文本编辑器会尝试猜测正确的编码 - 通常在 Windows 上，它们首先尝试 UTF-8，然后返回到适合当前 Windows“区域设置”的任何编码。

（该chardetect工具可以进行更深入的频率分析，但即便如此，它也无法完全区分某些代码页，例如，即使是大量的 ISO-8859-9 文本样本对该工具来说仍然看起来像“置信度为 0.72 的 ISO-8859-1”。）

此外，这些字符集几乎都是 ASCII 的严格超集，而 ASCII 本身只能表示英语/拉丁字母。将文件转换为 ASCII 毫无意义——这意味着扔掉所有不正确的字符，因为它们都不能用纯 ASCII 表示。通常，您需要采取另一种方法，将文件转换为最多可用的字符集 — — 通常为使用 Unicodeutf8编码。

因此，如果您认为文本文件是 Latin-5 (ISO-8859-9)，请告诉 iconv 进行转换从转换为 UTF-8：

iconv -f iso8859-9 -t utf8 < BANKA0 > BANKA0.NEW

然而，MacOS 可能使用了不同的代码页 - “MacTurkish”或“IBM1281”（我在 GNU iconv 中找不到，但它可能在 macOS 本身上受支持）。

（其他文件类型，如 HTML，支持嵌入元数据，并且可以指定其字符集之内文件本身 - 但 .txt 文件没有约定的嵌入元数据格式，整个文件只是文本。）

Answer 1