显示第二列不超过 4 个单词的行

Question 1

以下 AWK 脚本将原始行保存在 x 中，删除所有标签，然后计算单词数（负 1 以减少第一个字段中的文件名）。如果字数小于 5，则打印原始行：

awk '{x=$0; gsub(/<[^>]*>/, "")} NF-1<5 {print x}' filename

Answer

以下 AWK 脚本将原始行保存在 x 中，删除所有标签，然后计算单词数（负 1 以减少第一个字段中的文件名）。如果字数小于 5，则打印原始行：

awk '{x=$0; gsub(/<[^>]*>/, "")} NF-1<5 {print x}' filename

Question 2

可以使用一个小的 python 脚本来完成：

#!/usr/bin/env python3
import sys

for l in open(sys.argv[1]).readlines():
    l = l.strip()
    print(l) if len([s for s in l.split("<s>")[-1].split()
             if not all([s.startswith("<"), s.endswith(">")])]) <= 4 else ("")

假设您已经python3安装：

将其复制到一个空文件中，另存为get_colls.py
使用文件作为参数运行它：
```
python3 /path/to/get_colls.py <file>
```

示例的输出：

M07UP49A0870I422.wav    <s> haraa keelaa <bn> </s>
M07UP49A0870I423.wav    <s> <horn> jau <babble>  </s>

解释

剧本：

按分隔符分割行<s>
在第二部分中，计算字符串的数量，不是开始于<并结束于>
<=打印出长度为4 的行

Answer

可以使用一个小的 python 脚本来完成：

#!/usr/bin/env python3
import sys

for l in open(sys.argv[1]).readlines():
    l = l.strip()
    print(l) if len([s for s in l.split("<s>")[-1].split()
             if not all([s.startswith("<"), s.endswith(">")])]) <= 4 else ("")

假设您已经python3安装：

将其复制到一个空文件中，另存为get_colls.py
使用文件作为参数运行它：
```
python3 /path/to/get_colls.py <file>
```

示例的输出：

M07UP49A0870I422.wav    <s> haraa keelaa <bn> </s>
M07UP49A0870I423.wav    <s> <horn> jau <babble>  </s>

解释

剧本：

按分隔符分割行<s>
在第二部分中，计算字符串的数量，不是开始于<并结束于>
<=打印出长度为4 的行

Question 3

使用 awk可能是这里最好的，因为它可以让你清楚地表达你的想法（去掉标签，最多只能剩下 4 个单词，不包括第一列）。但您也可以使用 grep 来完成此操作，因为这只是过滤行的问题，并且过滤器可以通过正则表达式来描述。

grep -vE '^ *[^ ]+((<[^>]*>| )+[^<> ]+){5}'

-v: 排除匹配行
-E：使用扩展正则表达式语法
^ *[^ ]+匹配行开头的第一个单词
(…){5}表示括号中的 5 个或更多内容
(<[^>]*>| )+匹配空格和标签的非空序列
[^<> ]+匹配非标签词

Answer

使用 awk可能是这里最好的，因为它可以让你清楚地表达你的想法（去掉标签，最多只能剩下 4 个单词，不包括第一列）。但您也可以使用 grep 来完成此操作，因为这只是过滤行的问题，并且过滤器可以通过正则表达式来描述。

grep -vE '^ *[^ ]+((<[^>]*>| )+[^<> ]+){5}'

-v: 排除匹配行
-E：使用扩展正则表达式语法
^ *[^ ]+匹配行开头的第一个单词
(…){5}表示括号中的 5 个或更多内容
(<[^>]*>| )+匹配空格和标签的非空序列
[^<> ]+匹配非标签词

Question 4

这个命令应该有效：

awk -F "wav" '{print $2}' file | awk '{gsub("<[^>]*>", "")}1' | awk 'NF<4'

Answer

这个命令应该有效：

awk -F "wav" '{print $2}' file | awk '{gsub("<[^>]*>", "")}1' | awk 'NF<4'

显示第二列不超过 4 个单词的行

答案1

答案2

解释

答案3

答案4

相关内容