通过 HTTP 翻录网站以下载图像、HTML 和 CSS

通过 HTTP 翻录网站以下载图像、HTML 和 CSS

我需要通过 HTTP 抓取网站内容。我需要下载图片、HTML、CSS 和 JavaScript,并将其组织到文件系统中。

有谁知道如何做到这一点?

答案1

wget -erobots=off --no-parent --wait=3 --limit-rate=20K -r -p -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" -A htm,html,css,js,json,gif,jpeg,jpg,bmp http://example.com

这在控制台中运行。

这将抓取一个站点,在请求之间等待 3 秒,限制其下载速度以免关闭站点,并以某种方式掩盖其自身,使其看起来只是一个浏览器,这样站点就不会使用反盗取机制切断您的连接。

请注意指示-A您要下载的文件类型列表的参数。

您还可以使用另一个标签-D domain1.com,domain2.com来指示您想要下载的一系列域(如果它们有另一台服务器或其他用于托管不同类型文件的东西)。如果您没有获取文件,那么没有安全的方法可以自动执行所有情况。

wget通常在 Linux 上是预装的,但可以轻松地为其他 Unix 系统进行编译,或者轻松为 Windows 下载:GNUwin32 WGET

用它做好事,不要作恶。

答案2

好的免费解决方案:HT轨道

HTTrack 是一款免费(GPL、自由/免费软件)且易于使用的离线浏览器实用程序。

它允许您将万维网站点从 Internet 下载到本地目录,递归构建所有目录,将 HTML、图像和其他文件从服务器下载到您的计算机。HTTrack 会安排原始网站的相对链接结构。只需在浏览器中打开“镜像”网站的页面,您就可以逐个链接浏览该网站,就像您在线查看一样。HTTrack 还可以更新现有的镜像网站,并恢复中断的下载。HTTrack 完全可配置,并具有集成的帮助系统。

答案3

在 Linux 系统上,“wget” 基本上可以完成这个任务。

正如其他几个答案所提到的,它也被移植到其他几个平台。

答案4

看看 Firefox 的 Scrapbook 扩展。它在这方面做得非常出色,并且还与 Firebug 集成,并允许您在保存之前从 DOM 中删除元素(如果您愿意)。

相关内容