提取标签之间的信息

Question 1

您可以使用grep查找标签之间的文本然后sed删除标签本身来执行此操作：

$ grep -oP '<category.+?>.*?</category>' file.txt | sed 's/<.*>\(.*\)<.*>/\1/'
myotonic dystrophy
Myotonic dystrophy
DM
DM
DM

grep -oP：-P启用聚合酶链式反应forgrep并-o使其仅打印匹配的字符串。
'<category.+?>.*?</category>'：这告诉grep我们搜索开始和结束category标签之间的所有内容。
sed 's/<.*>\(.*\)<.*>/\1/'：上面的输出grep通过管道传输到sed它，通过用其内容替换它们来简单地删除标签（这里\1是因为使用括号来捕获它们）。

Answer

您可以使用grep查找标签之间的文本然后sed删除标签本身来执行此操作：

$ grep -oP '<category.+?>.*?</category>' file.txt | sed 's/<.*>\(.*\)<.*>/\1/'
myotonic dystrophy
Myotonic dystrophy
DM
DM
DM

grep -oP：-P启用聚合酶链式反应forgrep并-o使其仅打印匹配的字符串。
'<category.+?>.*?</category>'：这告诉grep我们搜索开始和结束category标签之间的所有内容。
sed 's/<.*>\(.*\)<.*>/\1/'：上面的输出grep通过管道传输到sed它，通过用其内容替换它们来简单地删除标签（这里\1是因为使用括号来捕获它们）。

Question 2

这可以通过PCRE来完成，到目前为止我已经尝试过了..但还没有完全理解..

这是我尝试过并正在工作的示例：

grep -oP '(?:<category=[A-Za-z\"\s]*>)[A-Za-z\s]+(?:<\/category>)' input|\
awk -F">" '{split($2,a,"<"); print a[1]}'

Answer

这可以通过PCRE来完成，到目前为止我已经尝试过了..但还没有完全理解..

这是我尝试过并正在工作的示例：

grep -oP '(?:<category=[A-Za-z\"\s]*>)[A-Za-z\s]+(?:<\/category>)' input|\
awk -F">" '{split($2,a,"<"); print a[1]}'

相关内容