用于查找 unix 名词短语的 shell 脚本

用于查找 unix 名词短语的 shell 脚本

on 数据库中的一个条目是:

LPE-1*story#1/1 of pearl#1/2*historia de la perla*storia della perla* histoire de la perle* história da pérola*istoria perlei*TOPIC

这些字段以星号 * 分隔。它们是:

sentence ID|English NP|Spanish translation|Italian translation|French translation|Portuguese translation|Romanian translation|Semantic relation

英语NP字段的格式如下:

noun1#sense/i [preposition] noun2#sense/j

其中 i 和 j 可以是 1 或 2,表示语义论元在 NP 实例中的位置(请注意,介词可能缺失)。例如,在编码部分-整体关系 (PW) 的 NP 实例 chair#1/2 arm#1/1 中,名词 chair 表示整体(因此标记为 2),名词 arm 编码部分(标记为 1)。

问题:

编写一个包含 UNIX 和 AWK 命令组合的 shell 脚本,该脚本将回答以下问题。该 shell 脚本应仅执行一次并输出(输出到标准输出,除非另有说明):

  1. 文件中英语 NP 实例的数量;
  2. 独特英语 NP 的数量(将此视为整个字段 $2);
  3. 该数据库中考虑的唯一语义关系列表(将其存储在“sr.uniq.txt”中);
  4. 数据库中每个语义关系的频率,格式如下:语义关系频率(存储在“sr-freq.txt”中);

问题 2,3,4 怎么做

相关内容