Unix字符集转换

Question 1

问题#1：grepping“Flyers：Video Center”...我没有看到结果：

在文件的十六进制转储中，请注意字之间的两个字节 C2A0传单：和视频。这是 UTF8 编码不间断空格。grep NBSP 已知会失败欲了解更多信息，请阅读如何使用 sed 删除特殊的“M-BM-”字符和使用 sed 替换 ...Hex c2a0。简短的回答是：

sed -i.bak -e 's/\xc2\xa0/ /' /path/to/file

问题#2“America's”显示为“Americaâs”(??):

这里，转储包含三个字节 e28099，称为右单引号(')。其实这里应该没有问题！您可能因上述问题而分心（您能确认吗？）

如果您使用grep,sed以及其他具有尊重您的语言环境（UTF8！）的表达式的工具，那么它将起作用：

printf 'America\xe2\x80\x99s\n' | grep --only-matching "[[:punct:]]"
printf 'America\xe2\x80\x99s\n' | sed -e "s/[[:punct:]]/?/"

如果你想摆脱所有那些UTF-8”特别的"字符，使用可以使用上面的提示或者iconv（不过现在已经很少有借口不支持UTF8了）。

删除所有非 ASCII 字符：

type a.txt | iconv -f utf8 -t ASCII//TRANSLIT

或者保留一种语言环境中的字符：

type a.txt | iconv -f utf8 -t iso8859-15//TRANSLIT | iconv -f iso8859-15 -t utf8

Answer

问题#1：grepping“Flyers：Video Center”...我没有看到结果：

在文件的十六进制转储中，请注意字之间的两个字节 C2A0传单：和视频。这是 UTF8 编码不间断空格。grep NBSP 已知会失败欲了解更多信息，请阅读如何使用 sed 删除特殊的“M-BM-”字符和使用 sed 替换 ...Hex c2a0。简短的回答是：

sed -i.bak -e 's/\xc2\xa0/ /' /path/to/file

问题#2“America's”显示为“Americaâs”(??):

这里，转储包含三个字节 e28099，称为右单引号(')。其实这里应该没有问题！您可能因上述问题而分心（您能确认吗？）

如果您使用grep,sed以及其他具有尊重您的语言环境（UTF8！）的表达式的工具，那么它将起作用：

printf 'America\xe2\x80\x99s\n' | grep --only-matching "[[:punct:]]"
printf 'America\xe2\x80\x99s\n' | sed -e "s/[[:punct:]]/?/"

如果你想摆脱所有那些UTF-8”特别的"字符，使用可以使用上面的提示或者iconv（不过现在已经很少有借口不支持UTF8了）。

删除所有非 ASCII 字符：

type a.txt | iconv -f utf8 -t ASCII//TRANSLIT

或者保留一种语言环境中的字符：

type a.txt | iconv -f utf8 -t iso8859-15//TRANSLIT | iconv -f iso8859-15 -t utf8

Question 2

不像XML，它应该包含一个编码标签，描述您必须通过其他方式获取 csv 的该信息的原始内容编码。

尽管类型对于二进制数据效果很好，但对于文本数据则效果不佳。

这是由于命令的工作方式造成的。看男人的文字。粗略地：它查看前几个字节并尝试通过查找查找表中找到的内容来猜测内容。

因此，通常最好的做法是询问内容的创作者使用了哪种字符集。

如果这是不可能的——无论出于何种原因，图标是你在这里最好的朋友。

Answer

不像XML，它应该包含一个编码标签，描述您必须通过其他方式获取 csv 的该信息的原始内容编码。

尽管类型对于二进制数据效果很好，但对于文本数据则效果不佳。

这是由于命令的工作方式造成的。看男人的文字。粗略地：它查看前几个字节并尝试通过查找查找表中找到的内容来猜测内容。

因此，通常最好的做法是询问内容的创作者使用了哪种字符集。

如果这是不可能的——无论出于何种原因，图标是你在这里最好的朋友。

相关内容