我正在尝试从网站递归检索所有可能的 URL(内部页面 URL)。
您能帮我解决 wget 问题吗?或者有没有更好的方法来实现这一点?我不想从网站下载任何内容,只想获取同一域名的 URL。
谢谢!
编辑
我尝试在 wget 中执行此操作,然后稍后 grep outlog.txt 文件。不确定这是否是正确的方法。但是,它有效!
$ wget -R.jpg,.jpeg,.gif,.png,.css -c -r http://www.example.com/ -o urllog.txt
$ grep -e " http" urllog1.txt | awk '{print $3}'