需要：AWK 中的非关联数组

Question

这是我为回答问题而编写的 gawk 4.1.3 的一些测试代码。 PFILE 中的原始数据是数字，我试图通过存储 DFILE 中连续条目之间的差异来压缩数据。

BEGIN{ RLS=bufstr=""; SEP =":" ; PFILE="somenumbers.txt" ; DFILE= "diffile.txt"
if (ATEST=="") ATEST=1
accumulate=lastdatum=0 ; BIGN=5500000 ; DATALENMAX=7 ;TUNELEN=2048
for(i=1; i < BIGN ; i++) {
     getline nextdatum < PFILE
     d = nextdatum -lastdatum
#     RLS = RLS d SEP
     ibuf( d SEP )
     print d > DFILE
     lastdatum=nextdatum  }
# RLS = RLS "0"
ibuf("0")
if (length(bufstr) > 0) { RLS = RLS bufstr ; bufstr="" }
print (RLSlen=length(RLS))
close(PFILE) ; close(DFILE)
timestmp["start"] = systime()
if (ATEST==1){
  split(RLS,data,SEP)
  timestmp["endsplit"] = systime()
  for(i=1; i in data; i++){     accumulate += 1*data[i]     }
  }
if (ATEST==2){
  for(j=1; j<RLSlen ; j+=datalen) {
     datalen=match(substr(RLS,j, DATALENMAX),SEP)
     accumulate  += 1*substr(RLS,j,datalen-1)     }
  }
if (ATEST==3) {
  while((getline diff < DFILE)>0){  accumulate  += 1*diff }
  close(DFILE)
  }
print accumulate 
timestmp["end"] = systime()
for(t in timestmp) print t, (1*timestmp[t] - 1*timestmp["start"])
}

function ibuf(str) {   bufstr=bufstr str
   if (length(bufstr) > TUNELEN) { RLS = RLS bufstr ; bufstr="" }
}

ibuf() 函数和 TUNELEN 参数并不重要，我只是厌倦了看到分配的内存值由于分配而来回颠簸

RLS = RLS d SEP

所以我决定缓冲这部分。

我预计第二部分和第三部分（ATEST=2 和 3）的执行速度比第一部分快一些。但那并没有发生。使用数组似乎总是快一点，极端情况下大约是第 2 节的两倍，比第 3 节快一点。但是，数组版本使用了大约 10 倍（或更多）的内存，因为必须将索引存储为以及价值观。

我最初在没有 DATAMAXLEN 值的情况下测试了第 2 部分，由于重复的 substr() 调用，速度变得非常慢。第 2 节方法绝对不会提供更高的速度，尽管它确实节省了输入数据使用的内存。

总之，如果您有内存需要消耗，请使用关联数组。如果您有一个好的磁盘，请从文件中读取。如果你必须保存，请爬过绳子，但要小心，只看小碎片。在我的系统上，我可能会遇到内存限制，因此我可能会从应用程序的文件中读取数据。如果有人看到一种调整第 2 部分的方法，比如使用索引或其他一些节省内存的方法来访问字符串，我想知道它。

格哈德“我的里程经常变化”帕斯曼，2015.09.30

Answer 1