我有一个小问题。我想使用Firefox的“SAVE”按钮保存网页,然后单击“Next”按钮到下一页并保存。我总共需要存储 1000 页。
显然我无法手动完成。这需要很长时间。该网页无法下载,wget
因为它们不是简单的 html 文件。他们使用 JavaScript 文件。有什么好主意吗?
答案1
“总是”有效的是使用硒来自某种编程语言。当然,您确实面临着与人类在浏览 javascript 驱动文件时面临的相同问题:您永远不知道页面的构建是否完全完成。
您将无法使用Ctrl+S或SaveButton,但selenium确实允许您检索页面的html。通常等待 X 秒就足够了(X 取决于构建页面的复杂性以及您的连接)。您还可以检查“已完成”页面中应该可用的元素(即在完成足够的 JavaScript 构建 DOM 树之后),并根据该触发器保存 HTML。