根据属于第二个文件范围内的列打印文件中的行子集

Question 1

以下awk程序应该执行以下操作：

awk 'NR==FNR{rng++;start[rng]=$1;end[rng]=$2;next}
     {for (i=1;i<=rng;i++) if (($2>=start[i])&&($2<=end[i])) {print; next}}' file2.txt file1.txt

其工作原理如下：

在解析第一个输入文件 ( ) 时（由全局行计数器file2.txt表示，等于每个文件行计数器），我们将范围开始和结束编号注册在两个数组中，并且（同时计算一个数组中的范围数）柜台）。之后，我们立即跳到下一行执行。NRFNRstartendrng
在处理file1.txt(NR现在大于FNR) 时，我们检查每一行的第 2 列是否分别落在start和end数组中相应条目指定的任何范围内。如果是这样，我们打印当前行并再次跳到下一行执行。

Answer

以下awk程序应该执行以下操作：

awk 'NR==FNR{rng++;start[rng]=$1;end[rng]=$2;next}
     {for (i=1;i<=rng;i++) if (($2>=start[i])&&($2<=end[i])) {print; next}}' file2.txt file1.txt

其工作原理如下：

在解析第一个输入文件 ( ) 时（由全局行计数器file2.txt表示，等于每个文件行计数器），我们将范围开始和结束编号注册在两个数组中，并且（同时计算一个数组中的范围数）柜台）。之后，我们立即跳到下一行执行。NRFNRstartendrng
在处理file1.txt(NR现在大于FNR) 时，我们检查每一行的第 2 列是否分别落在start和end数组中相应条目指定的任何范围内。如果是这样，我们打印当前行并再次跳到下一行执行。

Question 2

这两个文件都有数千行长。

因此，对于过去 30 年的任何计算机来说，几千行实际上根本不算什么数据。效率对你来说并不重要。（粗略计算：第一个文件每行 32 个字节，第二个文件每行 16 个字节，所以每行总共 48 个字节，假设你的计算机可以腾出 2 GB RAM，甚至稍微脸红之前，你可以将 4400 万行读入 RAM无需担心。）

因为这看起来像基因组学/生物信息学，所以我认为无论如何，你迟早有很大机会接触到Python。

#!/usr/bin/env python3
file1 = open("file1.txt", "r", encoding="ascii")
file2 = open("file2.txt", "r", encoding="ascii")

lines1 = file1.readlines()
lines2 = file2.readlines()

file1.close()
file2.close()

for dataline, rangeline in zip(lines1, lines2):
  splitrange = rangeline.split()
  lower = int(splitrange[0])
  upper = int(splitrange[1])
  
  ignore, valuestring, nucleotide1, nucleotide2 = dataline.split()
  value = int(valuestring)
  if lower <= value and value <= upper:
    print(dataline)

就是这样。

它像在中那样简洁吗awk？当然不是。这是尽可能快的吗？不，一点也不（但这并不重要）。你有机会记住这在一周内发生了什么吗？最可能。

如前所述，无论如何，您很可能会做其他与 AWK 设计目的无关的事情，因此 Python 可能是一个自然的工具。几乎可以肯定的是，学习生物蟒蛇是个好主意。

Answer