下载网页的所有源文件

下载网页的所有源文件

我想下载一个数据库搜索引擎网页的源文件。使用curl我只能下载html主页。我还想下载链接到该网页并在 html 主页面中提到的所有 javascript 文件、css 文件和 php 文件。使用curl/wget 或其他一些实用程序可以做到这一点吗?

答案1

首先,您应该咨询网站运营商,确认这是他们服务的可接受使用方式。之后,您可以执行以下操作:

wget -pk example.com

-p获取查看页面的必要条件(Javascript、CSS 等)。-k将页面上的链接转换为可用于本地查看的链接。

man wget

-p, --页面必备条件

此选项使 Wget 下载正确显示给定 HTML 页面所需的所有文件。这包括内联图像、声音和引用的样式表等内容。

[...]

-k,--转换链接

下载完成后,转换文档中的链接,使其适合本地查看。这不仅会影响可见的超链接,还会影响文档中链接到外部内容的任何部分,例如嵌入图像、样式表链接、非 HTML 内容的超链接等。

相关内容