如何从终端下载包含 JavaScript 生成内容的 HTML 网页?

如何从终端下载包含 JavaScript 生成内容的 HTML 网页?

在 Google Chrome 上,当我们进入开发模式时,right-clickHTML 元素 →复制复制元素,我们可以复制网页的 HTML 内容。下面是我所描述的过程的一个示例:

使用 Google Chrome 复制 HTML 内容

我的问题是,当我使用它wget下载网页时,我获得了该页面的源代码,包括它的 JavaScript 地址和脚本。

我想使用命令行下载页面的最终 HTML 结果,就像我示例中的 Google Chrome 一样。获取页面上显示的 HTML 内容对于自动从网页中提取信息很有用。

wget是否可以使用或其他命令行工具下载页面的 HTML(而不是源代码) ?

答案1

既然你已经谷歌浏览器安装后,您可以通过在终端中运行来获取网页的内部 HTML 结构:

google-chrome --headless --dump-dom 'URL' > ~/file.html

替换URL为您所需网页的 URL。HTML DOM该页面将被保存到file.html您的主目录中名为的文件中。

相关内容