使用特定标签从 HTML 文件中提取多行字符串

使用特定标签从 HTML 文件中提取多行字符串

<span class="style530">我需要提取以标签开头并以标签结尾的字符串</span>

我使用 sed 命令但没有得到想要的结果。下面是示例代码:

<strong>
-
<span class="style530">
AA - 
This
is my
First
Heading</span></strong><br>
<span class="style530">
<strong>
*Some
text,*
<strong>
*text*</strong>, 
*text*
<strong>
*text*</strong>: 
<br>
<span class="style530">
<strong>
- This 
is my
Second Heading</strong></span><br>
<span class="style530">
<strong>
*Some
text,*
<strong>
*text*</strong>, 
*Here
is some
text.*
<strong>*text*</strong>: 
*Here is 
some
text*.<br>
<br>
<strong>
-
<span class="style530">
- This is
my Third
Heading</span></strong><br>

输出应该是这样的:

 AA - This is my First Heading
 - This is my Second Heading
 - This is my Third Heading

谢谢!

答案1

正则表达式并不能真正完全解析 html。

有一个命令行工具叫西德尔它允许您使用 XPath 或 CSS 选择器来提取您想要的部分。

像这样的东西可以满足您所说的要求:

./xidel test.html --extract '//span[@class="style530"]' --output-format bash

但请注意,这会返回超过您所需的输出,因为您有一个未关闭的输出<span class="style530">

答案2

使用 HTMLParser 执行此类操作:

#!/usr/bin/python
# vim: set fileencoding=utf8 :
# (c) fazie

from HTMLParser import HTMLParser
import re
import sys

class MyParser(HTMLParser):
    inside_span = False

    def __init__(self,file):
        HTMLParser.__init__(self)
        f = open(file)
        self.feed(f.read())

    def handle_starttag(self,tag,attrs):
        if tag == 'span':
            for name,value in attrs:
                if name=='class' and value=='style530':
                    self.inside_span=True

    def handle_data(self,data):
        data = data.strip(' \t\r\n')
        if data != "":
            if self.inside_span:
                data = re.sub('\n',' ',data)
                data = re.sub('\s\s+',' ',data)
                print data

    def handle_endtag(self,tag):
        if tag == 'span':
            self.inside_span=False

MyParser(sys.argv[1])

运行:

python myparser.py inputfile.html

答案3

您可以尝试如下所示的操作。

awk -vRS='<' '
  inside || /^span[^>]*class="style530"/ {
    inside = 1
    if (/^span/)
      n++
    else if (/^\/span>/ && !--n) {
      $0="/span>\n"
      inside=0
    }
    printf "<%s", $0
  }' file.html | sed '/^</ d' | grep -v ">$"

但是,不建议使用 HTML 标头进行提取。请参见这里为什么你不应该解析 HTML 页面。我建议您使用curlw3m删除 HTML 标头,之后解析会变得简单一些。

答案4

对于从 xml/html 文本中进行简单提取,我喜欢使用 xidelCSS 选择器

在此示例中,要选择属性包含单词 的所有span元素,我们可以使用classstyle530

xidel --css span.style530 --xml

xidel有很多选择。问题提供的输入有点嘈杂。在噪音较小的情况下,--xml我们可能会得到类似的结果

<xml>
  <span class="style530">case 1 </span>
  <span class="menu style530 otherclass">case 2 </span>
  ...
</xml>

相关内容