将 Uniq -c 与正则表达式一起使用或计算删除的行数

Question 1

我不确定你到底想要什么，因为你似乎过于关注你的排序/独特的东西。

但是，如果您想要的只是修剪重复行，例如 4,5,6 和 8,9,10，那么您可以在您显示的最后一个具有 //NODECLASS 行的文件上执行此操作：

perl -F\" -lane '
   print,next if $. < 3;
   print if ! $h{($F[1] =~ /:(.*?):/)[0]}++;
' NODE_CLASS_file

其中前两行被跳过打印。对于其余部分，我们查看第二个字段，即 : 之间的数字，/:(.*?):/将为您提供数字，然后您需要通过将其包含在内来进入标量上下文(...)[0]并将其作为散列的键传递%h。仅当尚未看到此键时才打印当前行。

Answer

我不确定你到底想要什么，因为你似乎过于关注你的排序/独特的东西。

但是，如果您想要的只是修剪重复行，例如 4,5,6 和 8,9,10，那么您可以在您显示的最后一个具有 //NODECLASS 行的文件上执行此操作：

perl -F\" -lane '
   print,next if $. < 3;
   print if ! $h{($F[1] =~ /:(.*?):/)[0]}++;
' NODE_CLASS_file

其中前两行被跳过打印。对于其余部分，我们查看第二个字段，即 : 之间的数字，/:(.*?):/将为您提供数字，然后您需要通过将其包含在内来进入标量上下文(...)[0]并将其作为散列的键传递%h。仅当尚未看到此键时才打印当前行。

Question 2

我设法找到了一个粗略的解决方案，将开始结束位置作为单独的列添加到选项卡文件中。然后，在创建 Nodeclass 文件时，我也提取此列，并使用 sort | uniq -c 基于此而不是序列列。它似乎正在做我想要的事情，但速度稍慢，因为创建选项卡文件的脚本需要生成一整列额外的列！谢谢：）

Answer

我设法找到了一个粗略的解决方案，将开始结束位置作为单独的列添加到选项卡文件中。然后，在创建 Nodeclass 文件时，我也提取此列，并使用 sort | uniq -c 基于此而不是序列列。它似乎正在做我想要的事情，但速度稍慢，因为创建选项卡文件的脚本需要生成一整列额外的列！谢谢：）

相关内容