问题:Unicode 数据被 ascii 程序破坏

问题:Unicode 数据被 ascii 程序破坏

我使用 html2text 程序从 html 文件中提取 unicode devanagari。但它给出的输出如下,

“शà¥à¤°à¤¦à¥à¤§à¤§à¤¾à¤¨à¤¾à¤¨à¤¾à¤”。

在 Windows 中,我会使用 Notepad++ 中的转换为 unicode 功能来纠正这个问题。

Ubuntu 该怎么办?

更新:出于测试目的,我添加了以下内容:

echo 消息来源 | html2text

渲染à¤à¤à¤¾à¤°à¥à¤¯à¤ªà¥à¤à¥à¤¯à¤ªà¤¾à¤¦à¤¾à¤¨à¤¾à¤®à¤¿à¤·à¥à¤à¤

答案1

您可以尝试使用iconv将输入转换为正确的编码。遗憾的是,我无法为您提供更精确的帮助,仅提供最终用法的示例:

html2text myfile.html  |  iconv -f iso-8859-1 -t utf-8 -c > good_output.txt

当然你必须替换你自己的字符集。

更新:

对于您来说,可行的解决方案是添加-utf8参数html2text

 echo आचार्यपूज्यपादानामिष्टं | html2text -utf8

相关内容