对于文件 A 中的每一行，用模式替换文件 B 中所有匹配的行

Question 1

$ cat tst.awk
BEGIN {
    dots = sprintf("%*s",1000,"")
    gsub(/ /,".",dots)
    resSingle = "res-single"
    resLength = "res-length"
}
{ lc = tolower($0) }
NR==FNR {
    lgth = length($0)
    str2lgth[lc] = lgth
    str2dots[lc] = substr(dots,1,lgth)
    next
}
{
    for (str in str2lgth) {
        if ( s=index(lc,str) ) {
            bef = substr($0,1,s-1)
            aft = substr($0,s+str2lgth[str])
            print bef "." aft > resSingle
            print bef str2dots[str] aft > resLength
        }
    }
}

。

$ awk -f tst.awk fileA fileB

$ cat res-single
12.1991
ari.#!
.agnes#!
.45

$ cat res-length
12....1991
ari.....#!
...agnes#!
...45

上面假设 fileA 中的任何行都不会超过 1000 个字符，如果这是错误的，请选择一个更大的数字，或者我们可以在必要时添加代码来计算它。它还假设您不关心在 fileB 中查找 fileA 中的行的顺序，并且您想要进行字符串而不是正则表达式比较，如果这不是您想要的，那么这两者都是微不足道的调整。

编辑以回应您下面的评论，如果您无法静态定义 fileA 中的行的最大长度（甚至不是 100,000 个字符？），则以下是如何修改上述内容，因此需要计算出最大值，并且 fileA 中的行是全部小写：

NR==FNR {
    lgth = length($0)
    str2lgth[$0] = lgth
    maxLgth = (lgth > maxLgth ? lgth : maxLgth)
    next
}
FNR==1 {
    dots = sprintf("%*s",maxLgth,"")
    gsub(/ /,".",dots)
    for ( str in str2lgth ) {
        str2dots[str] = substr(dots,1,str2lgth[str])
    }
    resSingle = "res-single"
    resLength = "res-length"
}
{
    lc = tolower($0)
    for (str in str2lgth) {
        if ( s=index(lc,str) ) {
            bef = substr($0,1,s-1)
            aft = substr($0,s+str2lgth[str])
            print bef "." aft > resSingle
            print bef str2dots[str] aft > resLength
        }
    }
}

Answer

$ cat tst.awk
BEGIN {
    dots = sprintf("%*s",1000,"")
    gsub(/ /,".",dots)
    resSingle = "res-single"
    resLength = "res-length"
}
{ lc = tolower($0) }
NR==FNR {
    lgth = length($0)
    str2lgth[lc] = lgth
    str2dots[lc] = substr(dots,1,lgth)
    next
}
{
    for (str in str2lgth) {
        if ( s=index(lc,str) ) {
            bef = substr($0,1,s-1)
            aft = substr($0,s+str2lgth[str])
            print bef "." aft > resSingle
            print bef str2dots[str] aft > resLength
        }
    }
}

。

$ awk -f tst.awk fileA fileB

$ cat res-single
12.1991
ari.#!
.agnes#!
.45

$ cat res-length
12....1991
ari.....#!
...agnes#!
...45

上面假设 fileA 中的任何行都不会超过 1000 个字符，如果这是错误的，请选择一个更大的数字，或者我们可以在必要时添加代码来计算它。它还假设您不关心在 fileB 中查找 fileA 中的行的顺序，并且您想要进行字符串而不是正则表达式比较，如果这不是您想要的，那么这两者都是微不足道的调整。

编辑以回应您下面的评论，如果您无法静态定义 fileA 中的行的最大长度（甚至不是 100,000 个字符？），则以下是如何修改上述内容，因此需要计算出最大值，并且 fileA 中的行是全部小写：

NR==FNR {
    lgth = length($0)
    str2lgth[$0] = lgth
    maxLgth = (lgth > maxLgth ? lgth : maxLgth)
    next
}
FNR==1 {
    dots = sprintf("%*s",maxLgth,"")
    gsub(/ /,".",dots)
    for ( str in str2lgth ) {
        str2dots[str] = substr(dots,1,str2lgth[str])
    }
    resSingle = "res-single"
    resLength = "res-length"
}
{
    lc = tolower($0)
    for (str in str2lgth) {
        if ( s=index(lc,str) ) {
            bef = substr($0,1,s-1)
            aft = substr($0,s+str2lgth[str])
            print bef "." aft > resSingle
            print bef str2dots[str] aft > resLength
        }
    }
}

Question 2

您可以在此处使用简单的基于 Perl 的方法。

方法：

填充一个散列 %h，其键是 fileA 的小写行（不带换行符），值是等效的点数。

然后，对于 fileB 的每一行，我们测试哈希 %h 的任何键是否以不区分大小写的方式存在。如果是，那么我们将匹配前、匹配和匹配后数据打印到 res-single 和 res-length 文件中。如果您只想要第一个匹配项，请取消注释“最后一个”语句。

$ perl -Mautodie -lne '
    BEGIN {
     open *{"FH$_"}, ">", qw[res-single res-length][$_] for 0..1;
     do{
       local @ARGV = pop;
       $h{do{chomp;lc;}} = s/././gr =~ tr/\n//dr while <>;
       @h = keys %h;
      };
    }
    for my $h ( @h ) {
      if ( /\Q$h/pi ) {
        my($p, $q) = (${^PREMATCH}, ${^POSTMATCH});
        print {*{"FH$_"}} $p, (".", $h{$h})[$_], $q for 0..1;
        #last;
      }
    }
' fileB fileA

$ more res-*

::::::::::::::
res-length
::::::::::::::
12....1991
ari.....#!
...agnes#!
...45

::::::::::::::
res-single
::::::::::::::
12.1991
ari.#!
.agnes#!
.45

Answer

您可以在此处使用简单的基于 Perl 的方法。

方法：

填充一个散列 %h，其键是 fileA 的小写行（不带换行符），值是等效的点数。

然后，对于 fileB 的每一行，我们测试哈希 %h 的任何键是否以不区分大小写的方式存在。如果是，那么我们将匹配前、匹配和匹配后数据打印到 res-single 和 res-length 文件中。如果您只想要第一个匹配项，请取消注释“最后一个”语句。

$ perl -Mautodie -lne '
    BEGIN {
     open *{"FH$_"}, ">", qw[res-single res-length][$_] for 0..1;
     do{
       local @ARGV = pop;
       $h{do{chomp;lc;}} = s/././gr =~ tr/\n//dr while <>;
       @h = keys %h;
      };
    }
    for my $h ( @h ) {
      if ( /\Q$h/pi ) {
        my($p, $q) = (${^PREMATCH}, ${^POSTMATCH});
        print {*{"FH$_"}} $p, (".", $h{$h})[$_], $q for 0..1;
        #last;
      }
    }
' fileB fileA

$ more res-*

::::::::::::::
res-length
::::::::::::::
12....1991
ari.....#!
...agnes#!
...45

::::::::::::::
res-single
::::::::::::::
12.1991
ari.#!
.agnes#!
.45

Question 3

优化的C解决方案https://github.com/dizcza/people-names-as-passwords/blob/master/src/create_masks.c

我使用了 trie 数据结构，它允许我在 12 分钟内解析 2B 行fileB和 43k 行！fileA

感谢大家的意见。

Answer

优化的C解决方案https://github.com/dizcza/people-names-as-passwords/blob/master/src/create_masks.c

我使用了 trie 数据结构，它允许我在 12 分钟内解析 2B 行fileB和 43k 行！fileA

感谢大家的意见。

对于文件 A 中的每一行，用模式替换文件 B 中所有匹配的行

程式

算法

例子

简化的任务算法

Python实现

答案1

答案2

答案3

相关内容