使用下面行中的值填充缺失的字段

Question 1

这是一个我们可以使用的任务tac以相反的顺序解析文件：

tac file | awk -F';' 'NF > 1 {p = substr($0,index($0,FS))} {print $1 p}' | tac

因此，我们不存储任何行，而是在读取每一行后进行打印。

当NF > 1我们存储从行首FS到行尾的子字符串以供将来使用时。

Answer

这是一个我们可以使用的任务tac以相反的顺序解析文件：

tac file | awk -F';' 'NF > 1 {p = substr($0,index($0,FS))} {print $1 p}' | tac

因此，我们不存储任何行，而是在读取每一行后进行打印。

当NF > 1我们存储从行首FS到行尾的子字符串以供将来使用时。

Question 2

另一种awk基于的解决方案使用双通道方法（需要 GNUawk或nawk该gensub()函数）：

awk -F';' 'FNR==NR{if (NF>1) data[++i]=gensub(/^[^;]+/,"","1");next}
           {if (NF==1) $0=$0 data[j+1]; else j++;} 1' input.csv input.csv

这将扫描文件两次。第一次，它创建包含多个字段的那些行的“数据部分”数组。第二次，它替换丢失的数据部分，并在每次遇到“完整”行时增加数组计数器，以便下一个数据部分替换后面的行。

Answer

另一种awk基于的解决方案使用双通道方法（需要 GNUawk或nawk该gensub()函数）：

awk -F';' 'FNR==NR{if (NF>1) data[++i]=gensub(/^[^;]+/,"","1");next}
           {if (NF==1) $0=$0 data[j+1]; else j++;} 1' input.csv input.csv

这将扫描文件两次。第一次，它创建包含多个字段的那些行的“数据部分”数组。第二次，它替换丢失的数据部分，并在每次遇到“完整”行时增加数组计数器，以便下一个数据部分替换后面的行。

Question 3

使用sed：

sed -E '
    /;/!{ :a N;/;/!{ s/\n/-/;ta; }; };
    /;/ { s/\n/-/; };
    :c s/([^-]*)-([^;]*)(;.*)$/\1\3\n\2\3/; tc' infile

Answer

使用sed：

sed -E '
    /;/!{ :a N;/;/!{ s/\n/-/;ta; }; };
    /;/ { s/\n/-/; };
    :c s/([^-]*)-([^;]*)(;.*)$/\1\3\n\2\3/; tc' infile

Question 4

GNU sed在打开扩展正则表达式模式的情况下使用-E

$ sed -Ee '/\n/ba
    H;/;/!d;z;x;D;:a
    s/\n(.*\n)?[^;]+(;.*)/\2&/
    P;/\n.*\n/D;s/.*\n//
' file

$ perl -lne '$, = ";";
    push(@A,$_),next if !/;/;
    my $a = s/.*?;//r;
    print $_, $a for splice @A;
    print;
' file

Answer

GNU sed在打开扩展正则表达式模式的情况下使用-E

$ sed -Ee '/\n/ba
    H;/;/!d;z;x;D;:a
    s/\n(.*\n)?[^;]+(;.*)/\2&/
    P;/\n.*\n/D;s/.*\n//
' file

$ perl -lne '$, = ";";
    push(@A,$_),next if !/;/;
    my $a = s/.*?;//r;
    print $_, $a for splice @A;
    print;
' file

相关内容