我尝试使用 Httrack 和 Sitesucker 下载需要登录的网站的内容,但它下载的网页都是类似登录表单、注册和 seekpasswords.html 的内容,没有实际内容。该网站非常类似于 treehouse 或 Udemy,我已购买了课程,但课程将于下个月到期,所以我希望看看我是否可以在内容消失之前保存它(这是否违法?我不知道)。
不过 Httrack 和 Sitesucker 都没有询问我的登录信息。因此,我该如何下载内容,或者说这根本就不可能?
谢谢!
答案1
您需要做的是使用一款名为 Website Ripper Copier Pro 的软件。这允许您插入自己的 cookie,从而在整个下载过程中保持对订阅者内容的访问。这仍然是一个有点繁琐的过程,您可能会意外退出,因此请尝试设置并进行相应调整。以下是对我有用的方法:
- 打开 Internet Explorer,登录网站
- 然后,在 Chrome 中打开网站并登录。然后在 Chrome 中单击鼠标右键,转到检查/应用程序(在顶部栏中)/Cookies(在侧栏中),然后从下拉菜单中选择您的网站(然后在右侧显示所有 cookie)
- 然后进入 Website Ripper Copier Pro / 开始一个新项目 / 选择“复制网站以供离线浏览” / 输入起始地址
- 单击下一步,直到进入高级页面过滤器
- 要按 URL 过滤链接/点击“URL 过滤器”/将您网站的注销链接(在 Chrome 中右键单击并复制)输入到“排除”中,同时添加您不想下载的网站上的其他链接
- 要按描述过滤链接/单击“描述过滤器”/将关键字注销、注销、退出、退出添加到“排除部分
- 然后点击下一步并选择您的保存目的地。点击同一顶部栏中的“Cookies”
- 勾选“直接接受并返回 cookies”,勾选“从 Internet Explorer 导入 cookies”,勾选“使用您自己的 cookies”
- 单击“使用您自己的 cookie”下的“添加”,然后将您在 Chrome 上看到的有关您网站 cookie 的数据一次传输一个 cookie(是的,这项工作很繁琐)
- 点击“立即运行”