提取文件内不同位置的行

Question 1

您的文件似乎包含一个相关数据行，其余部分要么是空的，要么是以#;开头的注释行。然而最后一个是您想要保留的标头。您的问题似乎是注释行数不同。

如果任务实际上是提取标题和这一数据行以输出到“已解析的”摘要文件中，您可以指示awk忽略所有空行或以字符开头的行#，而不是由起始模式标识的标题# V-(D)-J，如：

awk '$0~/^# V-\(D\)-J/ || ($0!~/^#/ && NF>0) {print}' input_file > parsed_file

另一方面，如果您的文件包含多个数据行，并且您只想打印标题和第一个数据行，则命令awk必须如下所示：

awk '$0~/^# V-\(D\)-J/ {print} ($0!~/^#/ && NF>0) {print;exit}' input_file > parsed_file

要在 shell 循环中执行此操作，您可以这样做

for file in *LC.fa
do
    infile="${file%.*}.fmt7"
    outfile="${file%.*}.parsed.txt"
    awk '$0~/^# V-\(D\)-J/ || ($0!~/^#/ && NF>0) {print}' "$infile" > "$outfile"
done

或者

for file in *LC.fa
do
    infile="${file%.*}.fmt7"
    outfile="${file%.*}.parsed.txt"
    awk '$0~/^# V-\(D\)-J/ {print} ($0!~/^#/ && NF>0) {print;exit}' "$infile" > "$outfile"
done

分别。

随着的输出的解析ls，该循环更加稳健，即强烈不推荐。

`awk`对命令的一些解释

awk适用于“条件规则”语法，其中条件位于“主”程序空间中，相应的规则位于{ ... }.

在第一个例子中，我们有一个条件和一个规则：

如果该行（由取消引用$0）与正则表达式匹配^# V-$D$-J，即^以字符串 ( )开头V-(D)-J
或者( ||) 确实如此不是#以a （$0!~/^#/表达式）开头和另外是非空的，即它至少有一个由“字段分隔符”变量定义的字段（ NF>0- 我们也可以将其缩写为简单）（默认为空格）NF

然后是print线。

这将打印标题和任何连续的数据行。

在第二个例子中，我们有两个具有关联规则的条件：

如果该行以字符串开头# V-(D)-J，print则该行。
如果该行不是以开始#，且不为空，print然后立即exit，即终止awk文件的处理。

这样，“标题”就会被打印出来，但是一旦遇到并打印第一个“数据”行，我们就会停止执行，然后只打印标题以及每个文件的第一个数据行。

Answer

您的文件似乎包含一个相关数据行，其余部分要么是空的，要么是以#;开头的注释行。然而最后一个是您想要保留的标头。您的问题似乎是注释行数不同。

如果任务实际上是提取标题和这一数据行以输出到“已解析的”摘要文件中，您可以指示awk忽略所有空行或以字符开头的行#，而不是由起始模式标识的标题# V-(D)-J，如：

awk '$0~/^# V-\(D\)-J/ || ($0!~/^#/ && NF>0) {print}' input_file > parsed_file

另一方面，如果您的文件包含多个数据行，并且您只想打印标题和第一个数据行，则命令awk必须如下所示：

awk '$0~/^# V-\(D\)-J/ {print} ($0!~/^#/ && NF>0) {print;exit}' input_file > parsed_file

要在 shell 循环中执行此操作，您可以这样做

for file in *LC.fa
do
    infile="${file%.*}.fmt7"
    outfile="${file%.*}.parsed.txt"
    awk '$0~/^# V-\(D\)-J/ || ($0!~/^#/ && NF>0) {print}' "$infile" > "$outfile"
done

或者

for file in *LC.fa
do
    infile="${file%.*}.fmt7"
    outfile="${file%.*}.parsed.txt"
    awk '$0~/^# V-\(D\)-J/ {print} ($0!~/^#/ && NF>0) {print;exit}' "$infile" > "$outfile"
done

分别。

随着的输出的解析ls，该循环更加稳健，即强烈不推荐。

`awk`对命令的一些解释

awk适用于“条件规则”语法，其中条件位于“主”程序空间中，相应的规则位于{ ... }.

在第一个例子中，我们有一个条件和一个规则：

如果该行（由取消引用$0）与正则表达式匹配^# V-$D$-J，即^以字符串 ( )开头V-(D)-J
或者( ||) 确实如此不是#以a （$0!~/^#/表达式）开头和另外是非空的，即它至少有一个由“字段分隔符”变量定义的字段（ NF>0- 我们也可以将其缩写为简单）（默认为空格）NF

然后是print线。

这将打印标题和任何连续的数据行。

在第二个例子中，我们有两个具有关联规则的条件：

如果该行以字符串开头# V-(D)-J，print则该行。
如果该行不是以开始#，且不为空，print然后立即exit，即终止awk文件的处理。

这样，“标题”就会被打印出来，但是一旦遇到并打印第一个“数据”行，我们就会停止执行，然后只打印标题以及每个文件的第一个数据行。

Question 2

您可以设置一个 for 循环并调用 sed 来生成解析文件。

for f in *LC.fa; do
  if=${f%.*}.fmt
  of=${f%.*}.parsed.txt
  sed -e '
    8N;9q
    6N;/\n./q;d
  ' < "$if" > "$of"
done

Answer

您可以设置一个 for 循环并调用 sed 来生成解析文件。

for f in *LC.fa; do
  if=${f%.*}.fmt
  of=${f%.*}.parsed.txt
  sed -e '
    8N;9q
    6N;/\n./q;d
  ' < "$if" > "$of"
done

提取文件内不同位置的行

答案1

`awk`对命令的一些解释

答案2

相关内容

答案1

awk对命令的一些解释

答案2

相关内容

`awk`对命令的一些解释