在 Bash 中解析 HTML（当 grep 还不够时）

Question 1

我会使用过滤文件tidy，将每个顶级标记放在单独的行上，并使用更适合此类脚本编写的内容（例如 Perl）来处理标记。 sed当更改非常简单时最有用。

例如，此页面的片段（过滤后）将如下所示（用于tidy -wrap 4096减少换行）：

<body class="question-page new-topbar">
<noscript>
<div id="noscript-padding"></div>
</noscript>
<div id="notify-container"></div>
<div id="overlay-header"></div>
<div id="custom-header"></div>
<div class="topbar">
<div class="topbar-wrapper">
<div class="js-topbar-dialog-corral">
<div class="topbar-dialog siteSwitcher-dialog dno">
<div class="header">
<h3><a href="//unix.stackexchange.com">current community</a></h3>
</div>
<div class="modal-content current-site-container">
<ul class="current-site">

标签"a"等将是内联的，但页面结构更易于使用。

我使用“下载”了该页面lynx -source。然而，您可以使用多种工具：wget和curl更常用于此目的。

Answer

我会使用过滤文件tidy，将每个顶级标记放在单独的行上，并使用更适合此类脚本编写的内容（例如 Perl）来处理标记。 sed当更改非常简单时最有用。

例如，此页面的片段（过滤后）将如下所示（用于tidy -wrap 4096减少换行）：

<body class="question-page new-topbar">
<noscript>
<div id="noscript-padding"></div>
</noscript>
<div id="notify-container"></div>
<div id="overlay-header"></div>
<div id="custom-header"></div>
<div class="topbar">
<div class="topbar-wrapper">
<div class="js-topbar-dialog-corral">
<div class="topbar-dialog siteSwitcher-dialog dno">
<div class="header">
<h3><a href="//unix.stackexchange.com">current community</a></h3>
</div>
<div class="modal-content current-site-container">
<ul class="current-site">

标签"a"等将是内联的，但页面结构更易于使用。

我使用“下载”了该页面lynx -source。然而，您可以使用多种工具：wget和curl更常用于此目的。

Question 2

尝试一下小狗。即对于 OSX：

brew install https://raw.githubusercontent.com/EricChiang/pup/master/pup.rb

您可以使用 CSS3 选择器和提取器从属性中获取值href。

Answer

尝试一下小狗。即对于 OSX：

brew install https://raw.githubusercontent.com/EricChiang/pup/master/pup.rb

您可以使用 CSS3 选择器和提取器从属性中获取值href。

在 Bash 中解析 HTML（当 grep 还不够时）

答案1

答案2

相关内容