如何删除带后缀的重复单词？

Question 1

为此，您可能需要词干算法。例如，语言::词干是一个用 Perl 编写的词干分析器模块。

如果这符合您的需求，您需要安装Lingua::Stem 通过 CPAN。然后，以下 Perl 脚本将完成这项工作：

#!/usr/bin/perl

require Lingua::Stem;

# Read lines into array
chomp(my @words = <STDIN>);

# Stem in English
my $s = Lingua::Stem->new( -locale => 'en' );
my $stemmed = $s->stem_in_place( @words );

# Output result of stemmed words with duplicates removed
my $oldw = undef;
foreach $w (sort @$stemmed) {
    print "$w\n" unless ($w eq $oldw);
    $oldw = $w;
}

输出示例：

$ ./stem.pl < inputfile
curl
curler
iron
pan
park
parker
railroad

显然，这与您的示例输出略有不同，因为词干分析器对单词后缀的解释在某些情况下与您的不同。如果这仅影响应用程序中的中等数量的单词，则可以使用以下add_exceptions方法定义异常：

...
$s->add_exceptions( { "parker" => "park", "curler" => "curl" } );
$stemmed = $s->stem_in_place( @words );
...

Answer

为此，您可能需要词干算法。例如，语言::词干是一个用 Perl 编写的词干分析器模块。

如果这符合您的需求，您需要安装Lingua::Stem 通过 CPAN。然后，以下 Perl 脚本将完成这项工作：

#!/usr/bin/perl

require Lingua::Stem;

# Read lines into array
chomp(my @words = <STDIN>);

# Stem in English
my $s = Lingua::Stem->new( -locale => 'en' );
my $stemmed = $s->stem_in_place( @words );

# Output result of stemmed words with duplicates removed
my $oldw = undef;
foreach $w (sort @$stemmed) {
    print "$w\n" unless ($w eq $oldw);
    $oldw = $w;
}

输出示例：

$ ./stem.pl < inputfile
curl
curler
iron
pan
park
parker
railroad

显然，这与您的示例输出略有不同，因为词干分析器对单词后缀的解释在某些情况下与您的不同。如果这仅影响应用程序中的中等数量的单词，则可以使用以下add_exceptions方法定义异常：

...
$s->add_exceptions( { "parker" => "park", "curler" => "curl" } );
$stemmed = $s->stem_in_place( @words );
...

Question 2

用户“123”在另一个问题上为我创建的这个解决方案能够可靠地去除后缀，而不会破坏单词。我想回来回答这个问题，以便任何寻求类似解决方案的人都能得到一个好的答案。

awk 'FNR==NR{a[$0 "s"]++;next}!($0 in a)' file.txt file.txt
awk 'FNR==NR{a[$0 "ed"]++;next}!($0 in a)' file.txt file.txt
awk 'FNR==NR{a[$0 "ing"]++;next}!($0 in a)' file.txt file.txt
awk 'FNR==NR{a[$0 "ness"]++;next}!($0 in a)' file.txt file.txt
awk 'FNR==NR{a[$0 "er"]++;next}!($0 in a)' file.txt file.txt

Answer

用户“123”在另一个问题上为我创建的这个解决方案能够可靠地去除后缀，而不会破坏单词。我想回来回答这个问题，以便任何寻求类似解决方案的人都能得到一个好的答案。

awk 'FNR==NR{a[$0 "s"]++;next}!($0 in a)' file.txt file.txt
awk 'FNR==NR{a[$0 "ed"]++;next}!($0 in a)' file.txt file.txt
awk 'FNR==NR{a[$0 "ing"]++;next}!($0 in a)' file.txt file.txt
awk 'FNR==NR{a[$0 "ness"]++;next}!($0 in a)' file.txt file.txt
awk 'FNR==NR{a[$0 "er"]++;next}!($0 in a)' file.txt file.txt

如何删除带后缀的重复单词？

答案1

答案2

相关内容