我正在尝试解析 nickjr.com 网站,特别是“http://www.nickjr.com/paw-patrol/videos/“仅适用于完整剧集的 URL。
nickjr.com 的网站按节目名称布局,然后按游戏或视频布局,至少《paw patrol》是这样,所以 URL 在我实际点击播放视频之前会保持不变。网站上有多个视频,但完整剧集的 URL 中有“完整剧集”字样。
以下示例并非完整的剧集:
http://www.nickjr.com/paw-patrol/videos/316-garden-guards/
我的想法是使用 youtube-dl(在他们的网站上确实有效,经过测试)来下载剧集,但我不想下载所有剧集,因为有些不是完整剧集。所以我现在要做的是转到每个视频并复制 URL,然后将其复制到 youtube-dl。它有效,但 nickjrs 网站很难导航。
我知道网络蜘蛛是存在的,但我真的无法找到我正在寻找的东西,而且这真的没有什么意义。但我的计划是搜索网站,并在 URL 上使用正则表达式,但只将与完整剧集字符串匹配的 URL 写入文本文件,然后我可以将其导入 youtube-dl。
所以,我真的需要帮助来解析网站中的完整剧集,然后将其保存到文本文件中。
此外,我希望该程序与 Ubuntu 16.04 兼容,但如果需要的话,我也可以使用 Windows 10。
答案1
如果您使用 Chrome,您可以按调F12出开发人员工具,然后在控制台中运行以下小代码片段来写入链接列表:
$("a.route").each(function (i, a) {if (a.href.match(/full-episode/)) console.log(a.href)})
它可能也适用于其他浏览器,但我只在 Chrome 上测试过。