用 awk 变量替换

Question 1

使用 sed 可以轻松完成此操作。

$ sed -E -e 's/^((.*)_USD.*)/\2 \1/' input.txt 
P2_142 P2_142_USD16089440L_HJM27DSXX_L3
P2_144 P2_144_USD16089441L_HJM27DSXX_L3
P2_145 P2_145_USD16089442L_HJM27DSXX_L3
P2_168 P2_168_USD16089450L_HJM27DSXX_L3
P2_171 P2_171_USD16089451L_HJM27DSXX_L4
P2_172 P2_172_USD16089452L_HJM27DSXX_L4
P2_188 P2_188_USD16089456L_HJM27DSXX_L4
P2_262 P2_262_USD16089477L_HJJNWDSXX_L2
P2_270 P2_270_USD16089479L_HJJNWDSXX_L2
P2_271 P2_271_USD16089480L_HJJNWDSXX_L4

该 sed 脚本使用两个捕获组，即由(和包围的正则表达式模式)。第一个是整个输入行，第二个是之前的行的第一部分_USD。它将每个输入行替换为第二个捕获组 ( \2)、一个空格，然后替换为第一个捕获组 ( \1)。

或者与awk：

awk -F'_' -e '{print $1 "_" $2 " " $0}' input.txt

这将输入字段分隔符设置为_，然后（对于输入的每一行）它打印前两个字段，它们之间有一个下划线、一个空格，然后打印整个输入行。

您的命令存在几个问题：

cat samples_long.10ids.txt | \
  awk -v sample="$1" '{gsub(/_USD.*/,"",sample); print $sample,$1}'

你不需要 cat 将文件通过管道传输到 awk 中。 awk 可以读取命令行上作为参数给出的文件名。
您正在将 awk 变量设置sample为“$1”。我认为您指的是 awk 中的第一个字段，而不是某些（未显示的）shell 脚本包装器的第一个参数。那是行不通的。$1shell 中不存在awk 。它仅在 awk 读取一行输入数据时存在。
您还没有告诉 awk 使用什么作为字段分隔符，因此它默认为空白（空格和制表符）。在您的示例输入中，没有空格字符，因此 $1 是整个输入行（称为$0）。
您正在打印“$sample”。这告诉 awk 您要打印变量中包含的字段号sample。

sample 包含一个字符串，因此0在该上下文中计算为 -print $sample相当于printing $0.所以你的代码是有效的print $0 $1。这是有效的print $0 $0- 您将整行打印两次。
如果您想打印内容sample本身（而不是计算结果的字段编号sample），那么只需print sample.
第 4 点和第 5 点可能需要更多解释，或者至少需要一个更容易理解的示例。

每次 awk 读取输入行时，它都会自动设置一个变量，该变量称为NF该行中的字段数。

如果你想打印字段的数量，你只需打印NF。如果要打印字段编号等于 NF 的字段，请打印$NF（这将打印输入行的最后一个字段）。

您还可以对 NF（它是一个整数）进行算术和其他运算。例如print $(NF-1)将打印倒数第二个字段。

回到你的代码：你打印了$sample.在整数上下文中，sample有值0，因此您打印了$0，这是整个输入行。
考虑到上述所有内容，这将有效：
```
awk '{sample=$1; gsub(/_USD.*/,"",sample); print sample,$1}' samples_long.10ids.txt
```
但对于这样一个简单的任务来说，它过于复杂了。 awk 可以将输入拆分为由下划线分隔的字段，因此更容易做到这一点。
```
awk -F'_' -e '{print $1 "_" $2 " " $0}' samples_long.10ids.txt
```

Answer

使用 sed 可以轻松完成此操作。

$ sed -E -e 's/^((.*)_USD.*)/\2 \1/' input.txt 
P2_142 P2_142_USD16089440L_HJM27DSXX_L3
P2_144 P2_144_USD16089441L_HJM27DSXX_L3
P2_145 P2_145_USD16089442L_HJM27DSXX_L3
P2_168 P2_168_USD16089450L_HJM27DSXX_L3
P2_171 P2_171_USD16089451L_HJM27DSXX_L4
P2_172 P2_172_USD16089452L_HJM27DSXX_L4
P2_188 P2_188_USD16089456L_HJM27DSXX_L4
P2_262 P2_262_USD16089477L_HJJNWDSXX_L2
P2_270 P2_270_USD16089479L_HJJNWDSXX_L2
P2_271 P2_271_USD16089480L_HJJNWDSXX_L4

该 sed 脚本使用两个捕获组，即由(和包围的正则表达式模式)。第一个是整个输入行，第二个是之前的行的第一部分_USD。它将每个输入行替换为第二个捕获组 ( \2)、一个空格，然后替换为第一个捕获组 ( \1)。

或者与awk：

awk -F'_' -e '{print $1 "_" $2 " " $0}' input.txt

这将输入字段分隔符设置为_，然后（对于输入的每一行）它打印前两个字段，它们之间有一个下划线、一个空格，然后打印整个输入行。

您的命令存在几个问题：

cat samples_long.10ids.txt | \
  awk -v sample="$1" '{gsub(/_USD.*/,"",sample); print $sample,$1}'

你不需要 cat 将文件通过管道传输到 awk 中。 awk 可以读取命令行上作为参数给出的文件名。
您正在将 awk 变量设置sample为“$1”。我认为您指的是 awk 中的第一个字段，而不是某些（未显示的）shell 脚本包装器的第一个参数。那是行不通的。$1shell 中不存在awk 。它仅在 awk 读取一行输入数据时存在。
您还没有告诉 awk 使用什么作为字段分隔符，因此它默认为空白（空格和制表符）。在您的示例输入中，没有空格字符，因此 $1 是整个输入行（称为$0）。
您正在打印“$sample”。这告诉 awk 您要打印变量中包含的字段号sample。

sample 包含一个字符串，因此0在该上下文中计算为 -print $sample相当于printing $0.所以你的代码是有效的print $0 $1。这是有效的print $0 $0- 您将整行打印两次。
如果您想打印内容sample本身（而不是计算结果的字段编号sample），那么只需print sample.
第 4 点和第 5 点可能需要更多解释，或者至少需要一个更容易理解的示例。

每次 awk 读取输入行时，它都会自动设置一个变量，该变量称为NF该行中的字段数。

如果你想打印字段的数量，你只需打印NF。如果要打印字段编号等于 NF 的字段，请打印$NF（这将打印输入行的最后一个字段）。

您还可以对 NF（它是一个整数）进行算术和其他运算。例如print $(NF-1)将打印倒数第二个字段。

回到你的代码：你打印了$sample.在整数上下文中，sample有值0，因此您打印了$0，这是整个输入行。
考虑到上述所有内容，这将有效：
```
awk '{sample=$1; gsub(/_USD.*/,"",sample); print sample,$1}' samples_long.10ids.txt
```
但对于这样一个简单的任务来说，它过于复杂了。 awk 可以将输入拆分为由下划线分隔的字段，因此更容易做到这一点。
```
awk -F'_' -e '{print $1 "_" $2 " " $0}' samples_long.10ids.txt
```

Question 2

菜鸟awk错误...

awk将文件作为参数：

gawk [ POSIX 或 GNU 风格选项 ] [ -- ] 程序文本文件...

Answer

菜鸟awk错误...

awk将文件作为参数：

gawk [ POSIX 或 GNU 风格选项 ] [ -- ] 程序文本文件...

用 awk 变量替换

答案1

答案2

相关内容