具有多种 ISO 编码的文件

2024-6-9 • tag-icon

我有一个包含多种 ISO 编码的阿拉伯文件；以 ISO-8859-6 编码的字符和以 ISO-8859-1 编码的一些字符（因为它们在 ISO-8859-6 中没有等效字符）。我想将整个文件转换为utf-8。因此，我尝试做的是将整个文件使用转换为 ISO-8859-1 iconv -f ISO-8859-1 -t ISO-8859-1 fileip>fileop，然后使用 .txt 转换为 utf-8 iconv -f ISO-8859-1 -t UTF-8 fileop>finalfile。然而，结果仍然不是 UTF-8 编码的阿拉伯字符，而只是奇怪的字符。有没有办法统一编码，然后得到UTF-8格式？如果不是，我如何在不使用 sed 的情况下删除 ISO-8859-1，因为它不适用于我的 utf-8 系统。

相关内容