如何重新编码混合编码的文本文件

Question 1

一个“ASCII，除了一些 UTF-8 字符”的文件就是一个 UTF-8 文件。

只要您使用 UTF-8 语言环境，它就可以查看/搜索/编辑。

您无法将其转换为 ascii，因为后者没有 UTF-8 特殊字符的等效表示。

您可能想转换为 Isolatin

iconv -f UTF-8 -t ISO-8859-1

Answer

一个“ASCII，除了一些 UTF-8 字符”的文件就是一个 UTF-8 文件。

只要您使用 UTF-8 语言环境，它就可以查看/搜索/编辑。

您无法将其转换为 ascii，因为后者没有 UTF-8 特殊字符的等效表示。

您可能想转换为 Isolatin

iconv -f UTF-8 -t ISO-8859-1

Question 2

你所拥有的实际上是 ASCII（通常的 8 位字节编码），带有一些UCS-2（Unicode 仅限于基本平面 (BMP)，其中每个字符被编码为两个 8 位字节），或者也许UTF-16（UCS-2 的扩展，可以通过对 U+D7FF 以上的代码点使用多字编码来对所有 Unicode 进行编码）。

我怀疑您是否会找到一种可以立即处理这种邪恶混合物的工具。没有办法完全通用地解码该文件。就您而言，可能发生的情况是某些 ASCII 数据在某个时候被编码为 UTF-16（Windows 和 Java 喜欢 UTF-16；它们在 Unix 世界中几乎闻所未闻）。如果您假设原始数据都是 ASCII，则可以通过删除所有空字节来恢复可用的文件。

<bizarre tr -d '\000' >ascii

Answer

你所拥有的实际上是 ASCII（通常的 8 位字节编码），带有一些UCS-2（Unicode 仅限于基本平面 (BMP)，其中每个字符被编码为两个 8 位字节），或者也许UTF-16（UCS-2 的扩展，可以通过对 U+D7FF 以上的代码点使用多字编码来对所有 Unicode 进行编码）。

我怀疑您是否会找到一种可以立即处理这种邪恶混合物的工具。没有办法完全通用地解码该文件。就您而言，可能发生的情况是某些 ASCII 数据在某个时候被编码为 UTF-16（Windows 和 Java 喜欢 UTF-16；它们在 Unix 世界中几乎闻所未闻）。如果您假设原始数据都是 ASCII，则可以通过删除所有空字节来恢复可用的文件。

<bizarre tr -d '\000' >ascii

Question 3

如果您的文件包含带有一些 UTF-8 字符的 ASCII，那么根据定义，它就是 UTF-8 文件。纯 ASCII 文件也是有效的 UTF-8。

听起来您所拥有的是 ASCII、UTF-8 和其他一些单字节编码（如 Latin-1）的混合。那就很难清理了但如果不知道文件实际包含的内容，就很难给出好的建议。尝试发布hexdump -C file（将其缩减为包含问题字符的几行）的输出。

Answer

如果您的文件包含带有一些 UTF-8 字符的 ASCII，那么根据定义，它就是 UTF-8 文件。纯 ASCII 文件也是有效的 UTF-8。

听起来您所拥有的是 ASCII、UTF-8 和其他一些单字节编码（如 Latin-1）的混合。那就很难清理了但如果不知道文件实际包含的内容，就很难给出好的建议。尝试发布hexdump -C file（将其缩减为包含问题字符的几行）的输出。

Question 4

chardet从包中尝试python-chardet- 我刚刚在一个enca无法识别的文件上尝试过...chardet检测到字符集类型。（根据手册页，恩卡代表极其简单的字符集分析 :)

如果您无法检测类型，那么重新编码是相当徒劳的，因为重新编码器需要知道输入格式（请参阅检测字符集，以下）

您可以尝试在另一个文本编辑器中打开该文件，例如。emacs，vim，jedit， ETC。

gedit在文件打开对话框中有一个选择/添加/删除选项。您可以选择/添加字符集到字符集列表（一旦您知道它是什么）。gedit仅打开该列表中显示的类型。

此外，它可能是一个文字处理器文件。尝试使用 OpenOffice.org 打开它。

另一个（绝望（？）选项，是用户strings.
strings将打印文件中可打印字符串。

检测字符集充满了问题。为了许多基于拉丁文字的语言（你的似乎是），有许多字符集变化。这些字符集的唯一共同主题是基线 7 位 ASCII 字符集，它由十六进制 \x00 到 \x7F 的 128 种可能性组成。

任何一个许多使用第 8 位（另外 128 个字母）的单字节字符集使用此上限有多少种不同的字符集，就有多少种不同的方式。

除非你知道编码是什么，检测它通常是一个统计概率游戏（逆向工程），因为检测程序不知道编码是什么信它正在看着；它只看到字节值。当没有检测到唯一定义的差异时（这不是一个简单的任务），那么唯一的方法是选择最常用的匹配字符集。

最重要的是，即使文件包含完全有效的字符集 A，它对于检测程序来说也与字符集 B 一样有效......这就是为什么需要知道字符编码！ -- 特别是对于仅使用单字节的字符集。

多字节字符集有更明显的指纹，但即便如此，如果样本集不够大，这又是一场猜谜游戏……

Answer