灵活的模式匹配

灵活的模式匹配

我有一个如下所示的文件:

文件1:

0/28
7200/11
14400/11
21584/28
21600/11
28800/28
36000/11
36000/28
43200/11
43200/28
50400/11
57600/11
79200/28

在左侧部分(在 / 之前)我有以秒为单位的时间,在右侧部分我有相应秒的参数值。

现在我有另一个文件,如下所示:

文件2:

0 14
0 15
0 20
0 28
7200 11
7200 14
7200 15

现在,我想从第二个文件中删除 FILE1 中的公共值。例如我应该从 FILE2 中删除:

0 28
7200 11

并保持其余行不变。

我想在 bash 脚本中为 FILE1 中的每一行使用 for 循环,然后在 FILE2 中搜索该行,但我无法识别该模式。如果我尝试使用 awk 中的 substr ,它将不起作用,因为时间没有相同的数字(0 有 1 位数字,7200 有 4 位数字)。

要读取 FILE1,我正在做这样的事情:

IFS=$'\n' read -d '' -r -a X < ./FILE1.csv

为了编写 for 循环,我正在做这样的事情:

for x in "${X[@]}"
do
    gawk -i inplace -v var=${x} '{...}' FILE2.csv
done

我也在考虑将 FILE1 转换成这样:

0 28
7200 11
14400 11
21584 28
21600 11
28800 28
36000 11
36000 28
43200 11
43200 28
50400 11
57600 11
79200 28

基本上有 2 列,但是如果我有超过 1 列,则使用我上面使用的 for 和 var 将不起作用。我认为第二种方法更好,但我不知道如何让它单独处理每一列。

编辑:

如果 FILE1 是:

0 28
7200 11
14400 11
21584 28
21600 11
28800 28
36000 11
36000 28
43200 11
43200 28
50400 11
57600 11
79200 28

FILE2 是:

0 14 2 19
0 15 157 67
0 20 28 57
0 28 25 67
7200 11 88 14
7200 14 34 247
7200 15 364 14

答案1

使用awk

awk 'NR==FNR { sec[$1, $2]; next } !($1, $2) in sec' FS='/' file1 FS=' ' file2
0 14
0 15
0 20
7200 14
7200 15

FSF产量Seerator) 在每个输入文件之前定义该文件的字段分隔符。

答案2

回答最后补充的问题:

$ join -v 2 <(sed 's/ /:/' file1) <(sed 's/ /:/' file2) | sed 's/:/ /'
0 14 2 19
0 15 157 67
0 20 28 57
7200 14 34 247
7200 15 364 14

与此答案中进一步的其他join变体一样(它提供了答案原来的问题),这确保连接键是一个没有空格的单个字符串,然后从第二个文件中挑选出连接键与第一个文件中的任何条目都不匹配的行。

这对文件必须以相同的方式排序做出了相同的假设。由于join一次只在内存中保留两行,因此grep与任何其他需要将一个文件中的所有条目保留在内存中的解决方案相比,我们仍然具有相同的优势。


使用原始文件file1file2您的问题,将第一个文件tr即时转换为与第二个文件相同的格式,并使用重新格式化的数据作为一组行以从第二个文件中删除。

$ grep -v -x -F -f <(tr '/' ' ' <file1) file2
0 14
0 15
0 20
7200 14
7200 15

grep实用程序此处用于过滤(删除、排除)与 中file2的转换行相同的行file1

-x选项强制进行全行匹配(而不是像平常一样的子字符串匹配),并-F使用grep模式作为固定字符串而不是正则表达式。该-f选项告诉实用程序从指定文件中读取模式(进程替换),并-v反转匹配的通常含义,以便那些行才不是输出匹配。

也与您问题中的一些文字相关:


更有效的方法是使用join.如果您的file1规模很大,这可能是个好主意。对于大输入,这预计会比使用 快得多grep

下面假设您的两个文件都以相同的方式排序,并将第二个文件转换为与第一个文件相同的格式(用斜杠替换空格)以生成没有空格的行。我们以这种方式进行转换,join默认使用空格作为分隔符,并且我们需要考虑整行,而不仅仅是第一个空格分隔的字段。

$ join -v 2 file1 <(tr ' ' '/' <file2) | tr '/' ' ' 
0 14
0 15
0 20
7200 14
7200 15

这将在两个数据集之间执行关系 JOIN 操作,并将第二个输入中不匹配的行返回到join(转换后的第二个文件)。由于我们希望将空格分隔的数据作为最终结果,因此我们将末尾的斜杠替换为空格。

这在任何时候都不会在内存中保存超过两行的数据,而变grep体需要将第一个文件的整个内容保留在内存中,并且还需要根据第二个文件的每一行测试该文件的每一行文件。

答案3

我将通过使用 shell 循环来解决这个问题。

cat FILE2 | tr " " / | \
while read i;do
  cat -n FILE1| grep -w "$i" | awk '{print $1}' | \
  while read j;do
    sed -i "${j}d" FILE1
  done
done

答案4

这是一个不需要捏造SUBSEP、循环字段、对文件进行预排序或预先设置数量的列/字段的解决方案:

 mawk -v \_=testfile_001.txt -F/ '
 BEGIN { 
    while(getline<_) {
          __[$!(NF=NF)] 
    }
    _*=close(_)*(FS="^$") } _^($_ in __)' testfile_002.txt 
         
0 14
0 15
0 20
7200 14
7200 15
  • 刚刚实现FS="^$"设置第二个文件由于我们正在进行行范围匹配,因此速度要快得多,因此splitting fields浪费时间。

经过测试并证明可以在gawk 5.1.1(包括标志-c/-Pmawk 1.3.4、、、mawk 1.9.9.6macos nawk

-- The 4Chan Teller

相关内容