WGet 或 cURL：来自 http://site.com 的镜像站点，无内部访问权限

Question 1

不幸的是，wget 无法解析 JavaScript，因此抓取这样的网站非常困难。

好消息是，搜索引擎通常也不会解析它，因此他们很可能向搜索引擎提供略有不同的内容（这对于其他原因)，这样他们的页面才能被索引。如果他们想真正被索引，他们必须向搜索引擎提供无需 JavaScript 即可访问的页面。如果是这种情况，您可以通过使用 wget 欺骗 Googlebot 来解决这个问题，例如：

wget --user-agent="Mozilla/5.0 (compatible; Googlebot/2.1; +http://www. google.com/bot.html)" ...

只有极少数网站会真正检查您的 IP 地址以确认您是否真的是 Googlebot，但这种情况并不常见。

另一件事是检查/sitemap.xml文件是否存在，并将其用作要抓取的 URL 列表。有些网站提供此文件供 Google 和其他搜索引擎使用来抓取他们的内容，但是没有任何东西说你不能使用它......

Answer

不幸的是，wget 无法解析 JavaScript，因此抓取这样的网站非常困难。

好消息是，搜索引擎通常也不会解析它，因此他们很可能向搜索引擎提供略有不同的内容（这对于其他原因)，这样他们的页面才能被索引。如果他们想真正被索引，他们必须向搜索引擎提供无需 JavaScript 即可访问的页面。如果是这种情况，您可以通过使用 wget 欺骗 Googlebot 来解决这个问题，例如：

wget --user-agent="Mozilla/5.0 (compatible; Googlebot/2.1; +http://www. google.com/bot.html)" ...

只有极少数网站会真正检查您的 IP 地址以确认您是否真的是 Googlebot，但这种情况并不常见。

另一件事是检查/sitemap.xml文件是否存在，并将其用作要抓取的 URL 列表。有些网站提供此文件供 Google 和其他搜索引擎使用来抓取他们的内容，但是没有任何东西说你不能使用它......

Question 2

也许是这样的：

http://www.boutell.com/newfaq/creating/mirroring.html

或这个：

http://fosswire.com/post/2008/04/create-a-mirror-of-a-website-with-wget/

Answer

也许是这样的：

http://www.boutell.com/newfaq/creating/mirroring.html

或这个：

http://fosswire.com/post/2008/04/create-a-mirror-of-a-website-with-wget/

WGet 或 cURL：来自 http://site.com 的镜像站点，无内部访问权限

答案1

答案2

相关内容