我有一个以下格式的文件:
19-08-02 Name appel ok hope local merge (mk)
juin nov sept oct
00:00:t1 T1 299 0 24 8 3 64
F2 119 0 11 8 3 62
I1 25 0 2 9 4 64
F3 105 0 10 7 3 61
Regulated F2 0 0 0
FR T1 104 0 10 7 3 61
00:00:t2 T1 649 0 24 8 3 64
F2 119 0 11 8 3 62
I1 225 0 2 9 4 64
F3 165 0 10 7 3 61
Regulated F2 5 0 0
FR T1 102 0 10 7 3 61
20-08-02 Name appel ok hope local merge (mk)
juin nov sept oct
00:00:t5 T1 800 0 24 8 3 64
F2 111 0 11 8 3 62
I1 250 0 2 9 4 64
F3 105 0 10 7 3 61
Regulated F2 0 0 0
FR T1 100 0 10 7 3 61
我想提取一些数据并将它们写入CSV file
以下格式的其他文件中:
T1 F2 I1 F3 Regulated F2 FR T1
00:00:t1 299 119 25 105 0 104
00:00:t2 649 119 225 165 5 102
00:00:t5 800 111 250 105 0 100
.......
appel
我只需要在每次00:00:XX
尝试使用时提取第三个字段中的值,awk
但我没有成功获得正确的脚本,尤其是第五个字段由两个单词组成:Regulated F2
。我不知道如何将其提取为单个单词。
请帮忙!
答案1
使用 Perl:
perl -lane 'BEGIN{ print("\t\tT1\tF2\tI1\tF3\tRegulated F2\tFR T1"); $, = "\t" } if($F[0] =~ /00:00:t[0-9]+/){ @f[0] = $F[0]; @f[1] = $F[2]; for($i = 2; $i < 7; $i++) { $_ = <>; @F=split(); if($i < 5){ $f[$i] = $F[1] }else{ $f[$i] = $F[2] } } print(@f) }' file
扩展脚本(使用 可执行chmod +x script.pl
并使用 运行./script.pl file
):
#!/usr/bin/perl -lan
BEGIN {
print("\t\tT1\tF2\tI1\tF3\tRegulated F2\tFR T1");
$, = "\t"
}
if($F[0] =~ /00:00:t[0-9]+/) {
$f[0] = $F[0];
$f[1] = $F[2];
for($i = 2; $i < 7; $i++) {
$_ = <>;
@F=split();
if($i < 5) {
$f[$i] = $F[1]
}
else {
$f[$i] = $F[2]
}
}
print(@f)
}
您可以通过修改 来调整标题print("\t\tT1\tF2\tI1\tF3\tRegulated F2\tFR T1");
,并通过修改 来调整输出字段分隔符$, = "\t"
。
% cat file
19-08-02 Name appel ok hope local merge (mk)
juin nov sept oct
00:00:t1 T1 299 0 24 8 3 64
F2 119 0 11 8 3 62
I1 25 0 2 9 4 64
F3 105 0 10 7 3 61
Regulated F2 0 0 0
FR T1 104 0 10 7 3 61
00:00:t2 T1 649 0 24 8 3 64
F2 119 0 11 8 3 62
I1 225 0 2 9 4 64
F3 165 0 10 7 3 61
Regulated F2 5 0 0
FR T1 102 0 10 7 3 61
20-08-02 Name appel ok hope local merge (mk)
juin nov sept oct
00:00:t5 T1 800 0 24 8 3 64
F2 111 0 11 8 3 62
I1 250 0 2 9 4 64
F3 105 0 10 7 3 61
Regulated F2 0 0 0
FR T1 100 0 10 7 3 61
% perl -lane 'BEGIN{ print("\t\tT1\tF2\tI1\tF3\tRegulated F2\tFR T1"); $, = "\t" } if($F[0] =~ /00:00:t[0-9]+/){ @f[0] = $F[0]; @f[1] = $F[2]; for($i = 2; $i < 7; $i++) { $_ = <>; @F=split(); if($i < 5){ $f[$i] = $F[1] }else{ $f[$i] = $F[2] } } print(@f) }' file
T1 F2 I1 F3 Regulated F2 FR T1
00:00:t1 299 119 25 105 0 104
00:00:t2 649 119 225 165 5 102
00:00:t5 800 111 250 105 0 100
%
答案2
任务相当简单:忽略以日期开头的行或包含月份列的行;如果第一行包含测试时间,则获取该时间和第三列;对于所有其他行 - 抓住第二列。下面的脚本AWK
正是这样做的。
演示:
$> ./data2cvs.awk testData.txt
T1,F2,I1,F3,Regulated F2,FR T1
00:00:t1,299,119,25,105,0,104
00:00:t2,649,119,225,165,5,102
00:00:t5,800,111,250,105,0,100
脚本来源
#!/usr/bin/awk -f
BEGIN {
HEADER="T1,F2,I1,F3,Regulated F2,FR T1"; print HEADER
}
# Ignore lines containing date and month
$1~/^[[:digit:]]{2}-.+/ || $0~/juin.*nov.*sept.*oct/ {
next ;
}
# Grab test time and first data value
# Essentially doing something like sprintf in C
# to a string of arrays
$1~/^[[:digit:]]{2}:.+/{
count++
DATA[count]=$1","$3
}
# grab remaining data values
$1 !~ /^[[:digit:]]{2}:.+/{
if ($1~/Regulated/ || $1~/FR/){
DATA[count]=DATA[count]","$3
}
else {
DATA[count]=DATA[count]","$2 ;
}
}
# print gathered data to STDIN
END{
for (i=1;i<=count;i++) print DATA[i]
}