根据file命令将文件转换为utf-8

Question 1

vim能够自动检测一些文件编码并转换为 UTF-8，因此您可以尝试使用以下ex模式处理文件：

vim --clean -E -s -c 'argdo set fileencoding=utf-8 nobomb | update' -c q -- *.txt

我们update也只重写在此过程中修改过的文件。

Answer

vim能够自动检测一些文件编码并转换为 UTF-8，因此您可以尝试使用以下ex模式处理文件：

vim --clean -E -s -c 'argdo set fileencoding=utf-8 nobomb | update' -c q -- *.txt

我们update也只重写在此过程中修改过的文件。

Question 2

您可以使用file -i，它将返回文件的 MIME 编码。

就像是：

iconv -f `file -i $file|grep -Po 'charset=\K.*'` -t UTF-8 $file > $file_converted

另一种方法是使用更专用的工具，例如：
https://gitlab.freedesktop.org/uchardet/uchardet
那么命令就变得更加简单了

iconv -f `uchardet $file` -t UTF-8 $file > $file_converted

但你需要安装它。

Answer

您可以使用file -i，它将返回文件的 MIME 编码。

就像是：

iconv -f `file -i $file|grep -Po 'charset=\K.*'` -t UTF-8 $file > $file_converted

另一种方法是使用更专用的工具，例如：
https://gitlab.freedesktop.org/uchardet/uchardet
那么命令就变得更加简单了

iconv -f `uchardet $file` -t UTF-8 $file > $file_converted

但你需要安装它。

Question 3

什么时候file说Little-endian UTF-16 Unicode 文本或与--mime-encoding UTF-16LE，这意味着该文件以 UTF-16 编码，并带有 BOM，表明该文件采用小端字节序。

file无法检测没有 BOM 的 UTF-16 文本文件（小端或大端）。

对于 UTF-16 文本，它需要前两个字节为 0xff、0xfe（小端）或 0xfe 0xff（大端），然后检查前 64KiB 数据的其余部分是否像文本（仅查找文本文件中不需要的 UTF-16 编码的 ASCII 控制字符）。

为了iconv，utf-16le表示小端 UTF-16没有BOM，而 utf-16 表示带有 BOM 的 utf-16，无论是大端还是小端。

所以如果你使用的输出file -b --mime-encoding作为从charset in iconv，您最终会在输出中得到 UTF-8 编码的 BOM。

在这里，您可能想要类似的东西：

encoding=$(file -b --mime-encoding - < "$file") &&
  case $encoding in
    (utf-16[bl]e) iconv -f UTF-16 < "$file" -t UTF-8 > "$newfile";;
    (us-ascii | utf-8) ;; # already utf-8
    (*) printf >&2 '%s\n' "don't know what to do with a $encoding encoding"
  esac

如果这些是 Microsoft 文件（如 CRLF 所示），您可能需要dos2unix使用iconv. dos2unix（至少当前版本）应该能够检测 UTF-16 并转换为语言环境的字符集（LC_ALL=C.UTF-8 dos2unix如果您希望输出为 UTF-8，无论语言环境如何，请运行它）并将 CRLF 更改为 LF 并修复其他怪癖在微软的文件中。

Answer