简单的脚本解析文本，这里有什么错误？

Question 1

作为穆西奥已经说了，问题在于一些特殊字符的HTML编码。

Perl 可以可靠且轻松地转换它们：

curl 'https://www.grc.com/passwords.htm' | \
    grep 'ASCII characters:' \
    perl -MHTML::Entities -ne 's/.*2>|<.*//g; print decode_entities($_)'

Answer

作为穆西奥已经说了，问题在于一些特殊字符的HTML编码。

Perl 可以可靠且轻松地转换它们：

curl 'https://www.grc.com/passwords.htm' | \
    grep 'ASCII characters:' \
    perl -MHTML::Entities -ne 's/.*2>|<.*//g; print decode_entities($_)'

Question 2

这可能与 HTML 编码有关，例如，<63 个字符中的 a 实际上表示为<源中的实体，这使得字符串更长一些。

Answer

这可能与 HTML 编码有关，例如，<63 个字符中的 a 实际上表示为<源中的实体，这使得字符串更长一些。

Question 3

您需要考虑的是——脚本的结果字符串可能经常包含在 sed 操作中未正确转义的某些字符。

例如，这些字符可能是可疑的：括号、单引号和双引号、花括号、感叹号、正斜杠和反斜杠以及星号。

我将尝试在一系列测试中从返回的字符串中删除其中一个字符，然后比较结果以查看删除任意数量的其中一个字符是否会使计数达到 63。

Answer

您需要考虑的是——脚本的结果字符串可能经常包含在 sed 操作中未正确转义的某些字符。

例如，这些字符可能是可疑的：括号、单引号和双引号、花括号、感叹号、正斜杠和反斜杠以及星号。

我将尝试在一系列测试中从返回的字符串中删除其中一个字符，然后比较结果以查看删除任意数量的其中一个字符是否会使计数达到 63。

Question 4

根据您对 mousio 的评论，您的 grep/sed 链......可以简化为一个命令：

Perl 通常默认安装

perl -ne 'next unless /63 random printable ASCII characters:/; s/^.*size=2>//; s/<\/font>.*$//; s/&quot;/"/g; s/&apos;/'\''/g; s/&amp;/&/g; s/&lt;/</g; s/&gt;/>/g; print; exit'

并非所有 sed 都理解此语法

sed -n '/63 random printable ASCII characters:/{s/^.*size=2>//; s/<\/font>.*$//; s/&quot;/"/g; s/&apos;/'\''/g; s/&amp;/\&/g; s/&lt;/</g; s/&gt;/>/g; p;q}'

Answer

根据您对 mousio 的评论，您的 grep/sed 链......可以简化为一个命令：

Perl 通常默认安装

perl -ne 'next unless /63 random printable ASCII characters:/; s/^.*size=2>//; s/<\/font>.*$//; s/&quot;/"/g; s/&apos;/'\''/g; s/&amp;/&/g; s/&lt;/</g; s/&gt;/>/g; print; exit'

并非所有 sed 都理解此语法

sed -n '/63 random printable ASCII characters:/{s/^.*size=2>//; s/<\/font>.*$//; s/&quot;/"/g; s/&apos;/'\''/g; s/&amp;/\&/g; s/&lt;/</g; s/&gt;/>/g; p;q}'

简单的脚本解析文本，这里有什么错误？

答案1

答案2

答案3

答案4

相关内容