Grep 带空格的文本

Question 1

使用扩展的正则表达式，锚定Section关键字并获取其后不是的所有内容<：

$ grep -E -o 'Section [0-9]+:[^<]*' < file.txt
Section 1: Plan your day, write out your plan

我发现用 Perl 来锚定周围的部分是最简单的，所以如果这是一个选项：

$ perl -lne 'print $1 if m,<span>(Section \d+:.*?)</span>,' < file.txt
Section 1: Plan your day, write out your plan

（有一些方法可以用做类似的事情grep -P，但我发现它们有点难以阅读。）

Answer

使用扩展的正则表达式，锚定Section关键字并获取其后不是的所有内容<：

$ grep -E -o 'Section [0-9]+:[^<]*' < file.txt
Section 1: Plan your day, write out your plan

我发现用 Perl 来锚定周围的部分是最简单的，所以如果这是一个选项：

$ perl -lne 'print $1 if m,<span>(Section \d+:.*?)</span>,' < file.txt
Section 1: Plan your day, write out your plan

（有一些方法可以用做类似的事情grep -P，但我发现它们有点难以阅读。）

Question 2

如果您的 HTML 是有效的 XML，您可以使用xmlstarlet它来挑选适当的元素值。

xmlstarlet sel -t -v '//span' -n file.html
Section 1: Plan your day, write out your plan

如果没有更多的页面结构，我无法提供更好的 XPath ( //span)，但例如，如果您知道spana 内div有//div/span.还有更多可供选择的选项

Answer

如果您的 HTML 是有效的 XML，您可以使用xmlstarlet它来挑选适当的元素值。

xmlstarlet sel -t -v '//span' -n file.html
Section 1: Plan your day, write out your plan

如果没有更多的页面结构，我无法提供更好的 XPath ( //span)，但例如，如果您知道spana 内div有//div/span.还有更多可供选择的选项

Question 3

听起来您想要匹配除和之外的字符序列<，>因此 <number>:：

grep -Po '[^<>]* \d+:[^<>]*'

Answer

听起来您想要匹配除和之外的字符序列<，>因此 <number>:：

grep -Po '[^<>]* \d+:[^<>]*'

Question 4

Perl Look(ahead|behind) 可能会有所帮助：

grep -Po "(?<=>).+(?=</)" yourfile

这匹配 html 标签之间的任何内容并删除这些标签

Answer

Perl Look(ahead|behind) 可能会有所帮助：

grep -Po "(?<=>).+(?=</)" yourfile

这匹配 html 标签之间的任何内容并删除这些标签

相关内容