读取和丢弃行

Question 1

您可以用来cut提取每行上的前两个破折号分隔的字段，对其结果进行排序，并计算每个唯一字符串出现的次数：

$ cut -d '-' -f 1,2 file | sort | uniq -c | sort -n | head
   2 GTEX-1117F
   2 GTEX-111CU
   2 GTEX-ZZPU
   2 K-562

这还会传递数据以sort -n对数字进行排序并用于head获取最佳结果。

Answer

您可以用来cut提取每行上的前两个破折号分隔的字段，对其结果进行排序，并计算每个唯一字符串出现的次数：

$ cut -d '-' -f 1,2 file | sort | uniq -c | sort -n | head
   2 GTEX-1117F
   2 GTEX-111CU
   2 GTEX-ZZPU
   2 K-562

这还会传递数据以sort -n对数字进行排序并用于head获取最佳结果。

Question 2

仅调用 awk 并避免排序延迟，您可以使用：

awk -F- '{c[$1"-"$2]++}END{for (i in c){print i,c[i]}}' file

Answer

仅调用 awk 并避免排序延迟，您可以使用：

awk -F- '{c[$1"-"$2]++}END{for (i in c){print i,c[i]}}' file

Question 3

我将给出一个不同的示例，以便计数更明显：

GTEX-1117F-0003-SM-58Q7G
GTEX-1117F-0003-SM-58Q7G
GTEX-1117F-0003-SM-5DWSB
GTEX-111CU-0826-SM-5EGIJ
GTEX-111CU-0926-SM-5EGIK
GTEX-ZZPU-2726-SM-5NQ8O
GTEX-ZZPU-2626-SM-5E45Y
K-562-SM-2AXVE

该命令假设患者 ID 的格式为string-string：

$ cut -d'-' -f1,2 file | uniq -c | awk -F' ' '{ print $2,$1}' | sort -rk2 | head -1
GTEX-1117F 3

Answer

我将给出一个不同的示例，以便计数更明显：

GTEX-1117F-0003-SM-58Q7G
GTEX-1117F-0003-SM-58Q7G
GTEX-1117F-0003-SM-5DWSB
GTEX-111CU-0826-SM-5EGIJ
GTEX-111CU-0926-SM-5EGIK
GTEX-ZZPU-2726-SM-5NQ8O
GTEX-ZZPU-2626-SM-5E45Y
K-562-SM-2AXVE

该命令假设患者 ID 的格式为string-string：

$ cut -d'-' -f1,2 file | uniq -c | awk -F' ' '{ print $2,$1}' | sort -rk2 | head -1
GTEX-1117F 3

Question 4

从以下开始怎么样

$ for F in `cat patients`; do echo -n "$F " ; grep "^$F" records | wc -l; done
GTEX-1117F 2
GTEX-111CU 2
GTEX-ZZPU 2
K-562 2
$

Answer

从以下开始怎么样

$ for F in `cat patients`; do echo -n "$F " ; grep "^$F" records | wc -l; done
GTEX-1117F 2
GTEX-111CU 2
GTEX-ZZPU 2
K-562 2
$

读取和丢弃行

答案1

答案2

答案3

答案4

相关内容