使用 wget 完成网站抓取

使用 wget 完成网站抓取

我正在尝试对网站进行完整的站点翻录,我知道流视频的位置,但是让该过程高效且富有成效地运行却很困难。

第一个问题是登录:

我已经在 Google 上搜索过很多次如何像浏览器一样登录。假设我想登录一个允许我访问的付费网站,登录按钮在主页上,我认为是 JavaScript 弹出窗口,它不会将我带到 URL 末尾的 /login/,我尝试使用 cookie,但没有成功。任何帮助都非常感谢。

下一步我需要将用户代理更改为 android kitkat,我认为是--user-agent=""User-Agent:Android KitKat这样,对吗?这样做的原因是,如果我欺骗网站,让它认为我不在使用电脑,它就会让我保存视频,因为该网站使用 brightcove.com 来传输其内容。

接下来我需要明确地告诉它浏览所有页面并仅下载 .mp4 文件。(有没有办法让它对它拾取的所有流式视频进行某种右键单击并另存为?)抱歉,这可能有点令人困惑。这可能也有点牵强,但有任何程序或方法可以复制流下方的视频标题并将其粘贴到文件中,以便在下载后重命名吗?我对此表示怀疑,但如果有的话请告诉我 :)

虽然与这个特定项目无关,但我如何让 wget 浏览 www.@@@@@.com/download/1/file/mp4 一直到 www.@@@@@.com/download/1000000/file/mp4 离线浏览器有一个我可以使用的 url 宏,但我不知道如何用 wget 来做到这一点,所以知道这一点就好了。

相关内容