了解要考虑哪些 HTML 标签

Question

除了自己编写 HTML 解析器之外，“正确”的做法是使用现有的解析器并使用结果。这里有一个适用于 powershell 的解析器。http://woshub.com/parsing-html-webpages-with-powershell/

这个想法是，为了完全使用 HTML，您需要考虑解析的状态，这是正则表达式无法做到的。

即使如此，当您只是解析来自 Web 服务器的响应时，JavaScript 还没有被执行，因此如果 js 以某种方式修改了页面，您将不会得到修改。

使用 js 抓取网站的一种稍微简单的方法是依靠浏览器。这篇文章介绍了控制 IE 浏览页面和与页面交互的最基本方法。Powershell。如何使用 AutoBrowse 模块在网页上调用 javascript

缺点是您将打开一个 IE 实例，但优点是您将在渲染后访问 HTML DOM。这应该可以为您节省数小时的眼泪和头痛

Answer 1

除了自己编写 HTML 解析器之外，“正确”的做法是使用现有的解析器并使用结果。这里有一个适用于 powershell 的解析器。http://woshub.com/parsing-html-webpages-with-powershell/

这个想法是，为了完全使用 HTML，您需要考虑解析的状态，这是正则表达式无法做到的。

即使如此，当您只是解析来自 Web 服务器的响应时，JavaScript 还没有被执行，因此如果 js 以某种方式修改了页面，您将不会得到修改。

使用 js 抓取网站的一种稍微简单的方法是依靠浏览器。这篇文章介绍了控制 IE 浏览页面和与页面交互的最基本方法。Powershell。如何使用 AutoBrowse 模块在网页上调用 javascript

缺点是您将打开一个 IE 实例，但优点是您将在渲染后访问 HTML DOM。这应该可以为您节省数小时的眼泪和头痛

相关内容