批量下载浏览器显示的网页

批量下载浏览器显示的网页

Wget 不起作用,因为该页面是动态的,无论我输入什么选项,它都不会下载 Firefox 中显示的一些文本。

我搜索了好几次,但找到的所有解决方案都很麻烦,比如编写一个脚本来发送 Firefox 特定的按键。不过有些答案已经过时了,所以我想知道现在是否有更好的方法。

我需要的页面内容只是文字,不需要任何图像。

答案1

我想知道现在是否存在更好的东西。

根据个人经验,我敢说这对我来说似乎不太可能。

对于仅在可见时由 JavaScript 呈现内容的页面(这听起来就像您所描述的),我遇到的最佳解决方案是Python, 跑步(可通过pip/吡啶甲酸)控制例如未在 Google 上搜索过的 Chromium(Windows 版本可用这里)。

而且这仍然需要(至少一些)Python/Selenium 脚本来控制例如 Ungoogled Chromium。

还要注意,在 JavaScript 仅在可见时呈现的情况下,你可能必须通过 Selenium 执行一些 JavaScript 来滚动网页。还值得注意的是,JavaScript 元素可能无法在以“无头”模式(即没有 GUI)运行的现代浏览器(Chrome/Firefox)下呈现。因此,不幸的是,您可能不得不看着您的 Web 浏览器浏览这些页面。


我还建议可以研究一下美丽汤xml文件以及解析 HTML(可通过pip/PyPI获取这里这里)。你可以通过Selenium获取网页文本,但在某些情况下,保存页面以便稍后解析可能会更简单。

相关内容