我已经看到,为了抓取整个网站,这个命令应该有效:
wget --spider -r https://wikipedia.org/
但我的问题是为什么抓取整个网站的相同命令不适用于维基百科?
我的目标不是爬取所有维基百科,而是了解其中的区别。
这是命令的输出:
Spider mode enabled. Check if remote file exists.
--2016-08-31 17:53:56-- http://wikipedia.org/
Resolving wikipedia.org (wikipedia.org)... 91.198.174.192, 2620:0:862:ed1a::1
Connecting to wikipedia.org (wikipedia.org)|91.198.174.192|:80... connected.
HTTP request sent, awaiting response... 301 TLS Redirect
Location: https://wikipedia.org/ [following]
Spider mode enabled. Check if remote file exists.
--2016-08-31 17:53:56-- https://wikipedia.org/
Connecting to wikipedia.org (wikipedia.org)|91.198.174.192|:443... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: https://www.wikipedia.org/ [following]
Spider mode enabled. Check if remote file exists.
--2016-08-31 17:53:56-- https://www.wikipedia.org/
Resolving www.wikipedia.org (www.wikipedia.org)... 91.198.174.192, 2620:0:862:ed1a::1
Connecting to www.wikipedia.org (www.wikipedia.org)|91.198.174.192|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Remote file exists and could contain links to other resources -- retrieving.
--2016-08-31 17:53:56-- https://www.wikipedia.org/
Reusing existing connection to www.wikipedia.org:443.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: ‘wikipedia.org/index.html’
[ <=> ] 81 292 --.-K/s in 0,03s
2016-08-31 17:53:57 (2,44 MB/s) - ‘wikipedia.org/index.html’ saved [81292]
Removing wikipedia.org/index.html.
Found no broken links.
FINISHED --2016-08-31 17:53:57--
Total wall clock time: 0,2s
Downloaded: 1 files, 79K in 0,03s (2,44 MB/s)
答案1
这是一个常见问题解答(适用于wget
维基百科):
默认情况下,Wget 扮演一个运行良好的网络蜘蛛的角色,并遵守站点的
robots.txt
文件和规则no-follow
属性。
2005 年 1 月 18 日,Google 博客文章“防止垃圾评论”声明 Google 今后将尊重
rel="nofollow"
超链接上的属性。现在,他们的页面排名算法在对目标页面进行排名时会忽略具有此属性的链接。预期的结果是网站管理员可以修改用户发布的链接,使该属性存在,因此尝试通过在此类网站上发布链接来进行谷歌轰炸将不会导致该链接增加。
关键是维基百科已经设置了这个网站来阻止你这样做。