我需要抓取所有网站的数据并附加一个参数,例如
www.theSite.com/allpages?myPara=us
现在我得到的是 wget --recursive 来获取所有站点,但这不会附加参数,内容也没用。我需要在第二步中执行此操作:
curl http://theSite.com/allpages?myPara=us | grep -c MyString
所以本质上我是在整个网站中寻找一个特定的字符串,而我只能通过 HTTP 访问该网站。
答案1
我现在通过使用括号和 curl 来进行如下操作:
curl http://www.mySite.com/category1/category2/{+cat1,+cat2,+cat3,+cat4,+cat4}?myPara=us | grep -c myString
当然,这不会让我访问所有网站,但可以使用 wget、regex、集合和循环编写脚本。