您好,我正在学习 CS50,想离线下载所有问题集。每个问题都显示为单个 html 页面,例如
http://docs.cs50.net/problems/recover/recover.html
http://docs.cs50.net/problems/fifteen/fifteen.html
而父页面
http://docs.cs50.net/problems/
返回404错误。
那么我该如何下载所有子 html 页面?我试过了wget
,httrack
但失败了。谢谢!
答案1
不幸的是,您无法提供所给出的信息。
http://docs.cs50.net/problems/
不是网页,而是文件夹的 URL,文件夹内没有默认网页 - 通常为index.html
或default.html
。因此,Web 服务器没有内容可显示,并给出 404 错误。此外,Web 服务器上的目录浏览功能被禁用,因为您看不到recover
、fifteen
等子文件夹。您可以通过尝试来测试这一点http://docs.cs50.net/problems/recover
并得到相同的 404 错误。
除非有一个网页引用了所有子主题作为链接,WGET
否则,或任何其他类似程序将无法找到这些网页。但是,很可能有一个,否则你怎么知道这些页面存在?如果你找到那个页面,你就可以开始了,因为你跟着链接走。