wget抓取新闻网站搜索结果

Question

这本身不是一个答案......而是使用标准：

wget.exe -o logfile -r -l 2 http://www.voanews.com/search/?st=article&k=german&df=11%2F01%2F2013&dt=11%2F03%2F2013&ob=dt#article

抓取所有页面（以及更多）。我会删除用户代理条款~~和-np父目录排除。~~

就个人而言...单次搜索中有很多链接（例如标签），因此您会通过标准递归得到一些混乱的信息。

Answer 1

这本身不是一个答案......而是使用标准：

wget.exe -o logfile -r -l 2 http://www.voanews.com/search/?st=article&k=german&df=11%2F01%2F2013&dt=11%2F03%2F2013&ob=dt#article

抓取所有页面（以及更多）。我会删除用户代理条款~~和-np父目录排除。~~

就个人而言...单次搜索中有很多链接（例如标签），因此您会通过标准递归得到一些混乱的信息。

相关内容