我想下载一个数据库搜索引擎网页的源文件。使用curl我只能下载html主页。我还想下载链接到该网页并在 html 主页面中提到的所有 javascript 文件、css 文件和 php 文件。使用curl/wget 或其他一些实用程序可以做到这一点吗?
答案1
首先,您应该咨询网站运营商,确认这是他们服务的可接受使用方式。之后,您可以执行以下操作:
wget -pk example.com
-p
获取查看页面的必要条件(Javascript、CSS 等)。-k
将页面上的链接转换为可用于本地查看的链接。
从man wget
:
-p, --页面必备条件
此选项使 Wget 下载正确显示给定 HTML 页面所需的所有文件。这包括内联图像、声音和引用的样式表等内容。
[...]
-k,--转换链接
下载完成后,转换文档中的链接,使其适合本地查看。这不仅会影响可见的超链接,还会影响文档中链接到外部内容的任何部分,例如嵌入图像、样式表链接、非 HTML 内容的超链接等。