如何将html实体转换为可读文本？

Question 1

使用 Free recode（以前称为 GNU recode）：

recode html < file

如果您没有recode或HTML::Entities只需要解码&#x<hex>;实体，您可以使用以下方法手动完成：

perl -Mopen=locale -pe 's/&#x([\da-f]+);/chr hex $1/gie'

Answer

使用 Free recode（以前称为 GNU recode）：

recode html < file

如果您没有recode或HTML::Entities只需要解码&#x<hex>;实体，您可以使用以下方法手动完成：

perl -Mopen=locale -pe 's/&#x([\da-f]+);/chr hex $1/gie'

Question 2

从如何解码 HTML 实体？在 StackOverflow 上，您也许能够实现一个简单的 Perl 解决方案，例如

perl -Mopen=locale -MHTML::Entities -pe '$_ = decode_entities($_)' email.txt

例如使用您的示例文本

$ perl -Mopen=locale -MHTML::Entities -pe '$_ = decode_entities($_)' email.txt
chciałabym zapytać, czy rozważa Pan takze udział w nowych projektach w Warszawie ? Obecnie poszukujemy specjalisty javascript/architekta z bardzo dobrą znajomością Angular.js do projektu, który dotyczy systemu, służącego do monitorowania i zarządzania flotą pojazdów. Zespół, do którego poszukujemy

使用时-Mopen=locale，I/O 是在区域设置的字符集中完成的。这包括来自的输入email.txt。它看起来email.txt只包含 ASCII 字符（使用我认为的符号对这些字符进行编码的全部意义&#x<hex>;），但如果不是，您可能需要调整上面的内容以使用正确的字符集解码该文件（如果它与语言环境的字符集不同）一）而不是使用open=locale.

Answer

从如何解码 HTML 实体？在 StackOverflow 上，您也许能够实现一个简单的 Perl 解决方案，例如

perl -Mopen=locale -MHTML::Entities -pe '$_ = decode_entities($_)' email.txt

例如使用您的示例文本

$ perl -Mopen=locale -MHTML::Entities -pe '$_ = decode_entities($_)' email.txt
chciałabym zapytać, czy rozważa Pan takze udział w nowych projektach w Warszawie ? Obecnie poszukujemy specjalisty javascript/architekta z bardzo dobrą znajomością Angular.js do projektu, który dotyczy systemu, służącego do monitorowania i zarządzania flotą pojazdów. Zespół, do którego poszukujemy

使用时-Mopen=locale，I/O 是在区域设置的字符集中完成的。这包括来自的输入email.txt。它看起来email.txt只包含 ASCII 字符（使用我认为的符号对这些字符进行编码的全部意义&#x<hex>;），但如果不是，您可能需要调整上面的内容以使用正确的字符集解码该文件（如果它与语言环境的字符集不同）一）而不是使用open=locale.

Question 3

python 3.2+版本，可以在管道中使用：

python3 -c 'import html, sys; [print(html.unescape(l), end="") for l in sys.stdin]' < file

Answer

python 3.2+版本，可以在管道中使用：

python3 -c 'import html, sys; [print(html.unescape(l), end="") for l in sys.stdin]' < file

Question 4

echo -e "\x01\x19"应该可以解决问题。

Answer

echo -e "\x01\x19"应该可以解决问题。

如何将html实体转换为可读文本？

答案1

答案2

答案3

答案4

相关内容