我有一批不确定编码的文本文件,需要清除其中的异常字符。我使用了 python 的沙代图书馆确定它们 87% 符合 ISO-8859-2 标准,但仍包含不符合标准的字符,导致无法读取 R -在这篇 SO 帖子中描述。我想知道是否有办法 - 最好是命令行方法 - 批量清理这些并转换为 UTF-8,并将任何不确定的字符更改为类似“~”的内容。非常感谢您的帮助。
答案1
你试过了吗iconv
?我不知道 OSX 是否包含此命令,但这里有一个例子:
iconv -t UTF-8 myfile.txt
如果失败,请尝试音译:
iconv -t UTF-8//TRANSLIT myfile.txt
更新(来自评论):
经过一些实验,终于
iconv -t UTF-8//TRANSLIT -c infile > outfile.txt
完成了。谢谢大家。