在终端中重新编码并清理文本文件

在终端中重新编码并清理文本文件

我有一批不确定编码的文本文件,需要清除其中的异常字符。我使用了 python 的沙代图书馆确定它们 87% 符合 ISO-8859-2 标准,但仍包含不符合标准的字符,导致无法读取 R -在这篇 SO 帖子中描述。我想知道是否有办法 - 最好是命令行方法 - 批量清理这些并转换为 UTF-8,并将任何不确定的字符更改为类似“~”的内容。非常感谢您的帮助。

答案1

你试过了吗iconv?我不知道 OSX 是否包含此命令,但这里有一个例子:

iconv -t UTF-8 myfile.txt

如果失败,请尝试音译:

iconv -t UTF-8//TRANSLIT myfile.txt

更新(来自评论):

经过一些实验,终于iconv -t UTF-8//TRANSLIT -c infile > outfile.txt完成了。谢谢大家。

相关内容