使用 curl/wget 抓取网站数据并为每个网站附加一个参数

使用 curl/wget 抓取网站数据并为每个网站附加一个参数

我需要抓取所有网站的数据并附加一个参数,例如

www.theSite.com/allpages?myPara=us

现在我得到的是 wget --recursive 来获取所有站点,但这不会附加参数,内容也没用。我需要在第二步中执行此操作:

curl http://theSite.com/allpages?myPara=us | grep -c MyString

所以本质上我是在整个网站中寻找一个特定的字符串,而我只能通过 HTTP 访问该网站。

答案1

我现在通过使用括号和 curl 来进行如下操作:

curl http://www.mySite.com/category1/category2/{+cat1,+cat2,+cat3,+cat4,+cat4}?myPara=us | grep -c myString

当然,这不会让我访问所有网站,但可以使用 wget、regex、集合和循环编写脚本。

相关内容