我正在寻找一个程序来抓取网站*并将内容下载到磁盘。我有以下要求,但我尝试过的程序似乎都失败了:
- 该网站的登录过程分布在多个页面之间,因此我需要能够使用我的网络浏览器手动启动会话、进行身份验证,然后启动蜘蛛并授予其访问 cookie 的权限。
- 许多链接执行 Javascript,然后返回内容。
- 许多链接返回 PDF 文档(一些蜘蛛确实支持这一点)。
但到目前为止我还没有找到能够处理#1 和#2 的蜘蛛。
* 该网站提供账单支付服务,其中有我的账单历史记录。我想停止使用该服务,但想保留历史记录。
答案1
丁尼生·麦克斯韦超级传送满足您的要求。