使用 wget 解析网页至 n 级

使用 wget 解析网页至 n 级

我正在尝试使用 wget 从网页中提取用户定义的 n 级 URL。我试过这个

 wget -r -l$2 --reject=gif -O out.html www.google.com | sed -n 's/.*href="\([^"]*\).*/\1/p'` "

它只显示第一级。它没有解析任何级别,我该如何纠正它

答案1

删除 $2,除非您在其他地方分配变量 2=1 或类似的东西,否则 -l$2 将导致 wget 的输出wget: --level: Invalid number 无法很好地输入到 sed 中。

你可以做:

wget -l 2 <address>

或者

wget --length=2 <address>

您可能还对 no-parent 选项感兴趣,这将阻止 wget 向上遍历目录(n 级)。这是一个在递归检索时特别有用的选项,因为它保证只下载特定层次结构以下的文件。

wget -np <address>

相关内容