将制表符分隔文件中的逗号分隔列表扩展为单独的行

Question 1

这个 awk 命令非常可读：

awk '
  BEGIN {FS = "[,\t]"; OFS = "\t"}
  {for (i=3; i<=NF; i++) print $1, $2, $i}
' file

在 Perl 中，这是

perl -F'[,\t]' -lane 'print join "\t", @F[0,1], $F[$_] for 2..$#F' file
# or
perl -F'[,\t]' -slane 'print @F[0,1], $F[$_] for 2..$#F' -- -,=$'\t' file

如果您不确定是否有实际的制表符：

awk:FS = ",|[[:blank:]]+"
珀尔：-F',|\s+'

为了好玩，bash

while IFS= read -r line; do
    prefix=${line%%GO:*}
    IFS=, read -ra gos <<< "${line#$prefix}"
    for go in "${gos[@]}"; do echo "$prefix$go"; done
done < file

这个版本不关心空格和制表符，但它会很多比 perl 或 awk 慢。

Answer

这个 awk 命令非常可读：

awk '
  BEGIN {FS = "[,\t]"; OFS = "\t"}
  {for (i=3; i<=NF; i++) print $1, $2, $i}
' file

在 Perl 中，这是

perl -F'[,\t]' -lane 'print join "\t", @F[0,1], $F[$_] for 2..$#F' file
# or
perl -F'[,\t]' -slane 'print @F[0,1], $F[$_] for 2..$#F' -- -,=$'\t' file

如果您不确定是否有实际的制表符：

awk:FS = ",|[[:blank:]]+"
珀尔：-F',|\s+'

为了好玩，bash

while IFS= read -r line; do
    prefix=${line%%GO:*}
    IFS=, read -ra gos <<< "${line#$prefix}"
    for go in "${gos[@]}"; do echo "$prefix$go"; done
done < file

这个版本不关心空格和制表符，但它会很多比 perl 或 awk 慢。

Question 2

使用-a开关将每行拆分为空格上的 @F 数组。

perl -lane 'print join "\t", @F[0, 1], $_ for split /,/, $F[2]'

Answer

使用-a开关将每行拆分为空格上的 @F 数组。

perl -lane 'print join "\t", @F[0, 1], $_ for split /,/, $F[2]'

Question 3

这里的另一个选择nest --explode是磨坊主

mlr --nidx --fs tab nest --explode --values --across-records --nested-fs ',' -f 3 file

或使用简写nest说明符

mlr --nidx --fs tab nest --evar ',' -f 3 file

Answer

这里的另一个选择nest --explode是磨坊主

mlr --nidx --fs tab nest --explode --values --across-records --nested-fs ',' -f 3 file

或使用简写nest说明符

mlr --nidx --fs tab nest --evar ',' -f 3 file

Question 4

使用GNU sed它具有 [\n\t] 正则表达式功能，我们可以这样做，如下所示：

sed -n '
  y/,/\n/
  :a
      P; s/\t[^\n\t]*\n/\t/
  ta
'  file

你可以使用珀尔还

perl -F'(\t)' -pale '$"="";
  $_ = pop(@F) =~ tr/,/\n/r =~ s/^/@F/mgr;
' file

一种方法是珀尔显示在这里。 $a 标量保存前两个字段，然后在 while 循环中从由于 /c 修饰符而停止的位置开始搜索。

perl -lne '
  my($a) = /^((?:.*?\t){2})/gc;
  print $a, $1 while /\G([^,]+)(?:,|$)/g;
' file

Answer

使用GNU sed它具有 [\n\t] 正则表达式功能，我们可以这样做，如下所示：

sed -n '
  y/,/\n/
  :a
      P; s/\t[^\n\t]*\n/\t/
  ta
'  file

你可以使用珀尔还

perl -F'(\t)' -pale '$"="";
  $_ = pop(@F) =~ tr/,/\n/r =~ s/^/@F/mgr;
' file

一种方法是珀尔显示在这里。 $a 标量保存前两个字段，然后在 while 循环中从由于 /c 修饰符而停止的位置开始搜索。

perl -lne '
  my($a) = /^((?:.*?\t){2})/gc;
  print $a, $1 while /\G([^,]+)(?:,|$)/g;
' file

将制表符分隔文件中的逗号分隔列表扩展为单独的行

答案1

答案2

答案3

答案4

相关内容