Wget 不起作用,因为该页面是动态的,无论我输入什么选项,它都不会下载 Firefox 中显示的一些文本。
我搜索了好几次,但找到的所有解决方案都很麻烦,比如编写一个脚本来发送 Firefox 特定的按键。不过有些答案已经过时了,所以我想知道现在是否有更好的方法。
我需要的页面内容只是文字,不需要任何图像。
答案1
我想知道现在是否存在更好的东西。
根据个人经验,我敢说这对我来说似乎不太可能。
对于仅在可见时由 JavaScript 呈现内容的页面(这听起来就像您所描述的),我遇到的最佳解决方案是Python, 跑步硒(可通过pip
/吡啶甲酸)控制例如未在 Google 上搜索过的 Chromium(Windows 版本可用这里)。
而且这仍然需要(至少一些)Python/Selenium 脚本来控制例如 Ungoogled Chromium。
还要注意,在 JavaScript 仅在可见时呈现的情况下,你可能必须通过 Selenium 执行一些 JavaScript 来滚动网页。还值得注意的是,JavaScript 元素可能无法在以“无头”模式(即没有 GUI)运行的现代浏览器(Chrome/Firefox)下呈现。因此,不幸的是,您可能不得不看着您的 Web 浏览器浏览这些页面。
我还建议可以研究一下美丽汤和xml文件以及解析 HTML(可通过pip
/PyPI获取这里和这里)。你可以通过Selenium获取网页文本,但在某些情况下,保存页面以便稍后解析可能会更简单。