我有一个巨大的文件需要处理,但我无法准确获取我需要的内容。请注意,我事先并不知道这种情况在一个文件中发生多少次(例如,每个文件可能发生 > 1000 次)。
下面是我的输入文件(制表符分隔),其中 $1 是行号。损坏的数字序列出现在 $3 处:
797 47 M797 1 365.0 0.05 0.05 A 0.825
798 47 M798 1 365.0 0.05 0.05 A 0.825
799 47 M799 1 365.0 0.70 0.70 A 0.404
800 47 M800 1 365.0 0.00 0.00 A 0.990
801 47 M802 1 365.0 0.29 0.29 A 0.591
802 47 M803 1 365.0 0.12 0.12 A 0.726
这就是我要的:
797 47 M797 1 365.0 0.05 0.05 A 0.825
798 47 M798 1 365.0 0.05 0.05 A 0.825
799 47 M799 1 365.0 0.70 0.70 A 0.404
800 47 M800 1 365.0 0.00 0.00 A 0.990
801
802 47 M802 1 365.0 0.29 0.29 A 0.591
803 47 M803 1 365.0 0.12 0.12 A 0.726
这是我到目前为止编写的代码(文件名是 test.sh):
awk '
marker=substr($3,2,6)
{ if (FNR < marker) {printf "\n"}
}' ${1}
这是我到目前为止得到的输出:
797 47 M797 1 365.0 0.05 0.05 A 0.825
798 47 M798 1 365.0 0.05 0.05 A 0.825
799 47 M799 1 365.0 0.70 0.70 A 0.404
800 47 M800 1 365.0 0.00 0.00 A 0.990
801 47 M802 1 365.0 0.29 0.29 A 0.591
802 47 M803 1 365.0 0.12 0.12 A 0.726
803 47 M804 1 365.0 0.08 0.08 A 0.777
如果有人对此有更好的解决方案,请告诉我。
答案1
您被标记为awk
,希望 Python 会有用。
代码:
# !/usr/bin/python
import sys
def print_fixed_sequence(filename, line_num=0):
with open(filename, 'rU') as f:
for line in (x.strip() for x in f):
_, f1, f2, data = line.split('\t', 3)
rec_num = int(f2[1:])
while line_num != rec_num:
print(line_num)
line_num += 1
print('\t'.join((str(line_num), f1, f2, data)))
line_num += 1
print_fixed_sequence(sys.argv[1], line_num=795)
结果:
795
796
797 47 M797 1 365.0 0.05 0.05 A 0.825
798 47 M798 1 365.0 0.05 0.05 A 0.825
799 47 M799 1 365.0 0.70 0.70 A 0.404
800 47 M800 1 365.0 0.00 0.00 A 0.990
801
802 47 M802 1 365.0 0.29 0.29 A 0.591
803 47 M803 1 365.0 0.12 0.12 A 0.726
答案2
输入文件
797 47 M797 1 365.0 0.05 0.05 A 0.825
798 47 M798 1 365.0 0.05 0.05 A 0.825
799 47 M799 1 365.0 0.70 0.70 A 0.404
800 47 M800 1 365.0 0.00 0.00 A 0.990
801 47 M802 1 365.0 0.29 0.29 A 0.591
802 47 M804 1 365.0 0.12 0.12 A 0.726
803 47 M807 1 365.0 0.12 0.12 A 0.726
804 47 M808 1 365.0 0.12 0.12 A 0.726
805 47 M812 1 365.0 0.12 0.12 A 0.726
806 47 M813 1 365.0 0.12 0.12 A 0.726
代码
#!/usr/bin/awk -f
BEGIN{ al=790 # added lines at start
ap=0 # appended lines (missing)
}
{
lc=$1 # line counter
$1=lc+ap # adjust line number
mr=substr($3,2,6) # marker
while( NR+al+ap < lc ){ print "added ++" ++al, ap,"lc=" lc}
while( NR+al+ap < mr ){ print $1; $1=lc+(++ap); }
if ( lc+ap == mr ){ print }
if ( lc+ap > mr ){ print "errorerror"; exit}
}
输出
added ++791 0 lc=797
added ++792 0 lc=797
added ++793 0 lc=797
added ++794 0 lc=797
added ++795 0 lc=797
added ++796 0 lc=797
797 47 M797 1 365.0 0.05 0.05 A 0.825
798 47 M798 1 365.0 0.05 0.05 A 0.825
799 47 M799 1 365.0 0.70 0.70 A 0.404
800 47 M800 1 365.0 0.00 0.00 A 0.990
801
802 47 M802 1 365.0 0.29 0.29 A 0.591
803
804 47 M804 1 365.0 0.12 0.12 A 0.726
805
806
807 47 M807 1 365.0 0.12 0.12 A 0.726
808 47 M808 1 365.0 0.12 0.12 A 0.726
809
810
811
812 47 M812 1 365.0 0.12 0.12 A 0.726
813 47 M813 1 365.0 0.12 0.12 A 0.726