文本处理：提取文件的一部分并将它们写入一行

Question 1

另一种可能的方法是使用 XML 处理器。在本例中为 XMLstarlet。

xmlstarlet sel -t -v 'substring-after(//title,":")' \
                  -m //span -o "|" -v .  \
               -t -n  *.xml

在哪里：

sel -t-- 根据以下模板选择XML部分
-v 'substring-after(//title,":")'-- 是“:”之后的标题值
-m //span -o "|" -v . -- 匹配span并打印“|”及其价值
-t -n-- 添加换行符

Answer

另一种可能的方法是使用 XML 处理器。在本例中为 XMLstarlet。

xmlstarlet sel -t -v 'substring-after(//title,":")' \
                  -m //span -o "|" -v .  \
               -t -n  *.xml

在哪里：

sel -t-- 根据以下模板选择XML部分
-v 'substring-after(//title,":")'-- 是“:”之后的标题值
-m //span -o "|" -v . -- 匹配span并打印“|”及其价值
-t -n-- 添加换行符

Question 2

一般来说，使用正则表达式处理 HTML/XML 不是一个好主意，因为它们的表达能力不足以处理所有极端情况。但是，您的 grep 输出表明我们可以根据您的具体情况进行。

以下是使用 sed 处理 grep 命令输出的方法：

sed -e 'N;N;N;N;s/^File-\(.*\):Field1 : \(.*\)<\/title>.*Field2 : .*<span>\(.*\)<\/span *>.*Field3 : .*<span>\(.*\)<\/span *>.*Field4 : .*<span>\(.*\)<\/span *>.*Field5 : .*<span>\(.*\)\s*<\/span *>/\1 | \2 | \3 | \4 | \5 | \6/'

说明：

N;N;N;N;：这用于连接第五行到第五行（以便将文件中的所有字段放在同一行中）
s/：这将启动替换命令，第一部分是匹配，第二部分是替换
^File-\(.*\):：这与文件号匹配
Field1 : \(.*\)<\/title>：这与第一个字段匹配
.*Field2 : .*<span>\(.*\)<\/span *>: 这与第二个匹配
...
/\1 | \2 | \3 / \4 | \5 | \6/：这是替换部分：\(.*\)第一部分中由分隔的每个组都被捕获并可通过特殊变量\1、\2等重用。

结果：

1 | DATA_FIELD_1 | DATA_FIELD_2 | DATA_FIELD_3 | DATA_FIELD_4 | DATA_FIELD_5 
2 | DATA_FIELD_1 | DATA_FIELD_2 | DATA_FIELD_3 | DATA_FIELD_4 | DATA_FIELD_5 
3 | DATA_FIELD_1 | DATA_FIELD_2 | DATA_FIELD_3 | DATA_FIELD_4 | DATA_FIELD_5

Answer

一般来说，使用正则表达式处理 HTML/XML 不是一个好主意，因为它们的表达能力不足以处理所有极端情况。但是，您的 grep 输出表明我们可以根据您的具体情况进行。

以下是使用 sed 处理 grep 命令输出的方法：

sed -e 'N;N;N;N;s/^File-\(.*\):Field1 : \(.*\)<\/title>.*Field2 : .*<span>\(.*\)<\/span *>.*Field3 : .*<span>\(.*\)<\/span *>.*Field4 : .*<span>\(.*\)<\/span *>.*Field5 : .*<span>\(.*\)\s*<\/span *>/\1 | \2 | \3 | \4 | \5 | \6/'

说明：

N;N;N;N;：这用于连接第五行到第五行（以便将文件中的所有字段放在同一行中）
s/：这将启动替换命令，第一部分是匹配，第二部分是替换
^File-\(.*\):：这与文件号匹配
Field1 : \(.*\)<\/title>：这与第一个字段匹配
.*Field2 : .*<span>\(.*\)<\/span *>: 这与第二个匹配
...
/\1 | \2 | \3 / \4 | \5 | \6/：这是替换部分：\(.*\)第一部分中由分隔的每个组都被捕获并可通过特殊变量\1、\2等重用。

结果：

1 | DATA_FIELD_1 | DATA_FIELD_2 | DATA_FIELD_3 | DATA_FIELD_4 | DATA_FIELD_5 
2 | DATA_FIELD_1 | DATA_FIELD_2 | DATA_FIELD_3 | DATA_FIELD_4 | DATA_FIELD_5 
3 | DATA_FIELD_1 | DATA_FIELD_2 | DATA_FIELD_3 | DATA_FIELD_4 | DATA_FIELD_5

文本处理：提取文件的一部分并将它们写入一行

答案1

答案2

相关内容