如何以批处理模式运行程序来处理大数据？

Question

定义一个函数或编写一个只接受一个参数的脚本，例如.pamlcodeml文件或其名称中的独特数字，并通过构造一个包装调用.ctl根据参数文件，不改变模板代码ml.ctl文件：

function mycodeml(){
  num="${1//[^0-9]/}" # keep only numbers
  if [ !-f OG$num.paml ] ;then
    echo ERR NOTFOUND $PWD/OG$num.paml >&2
  else
    tmp=$(mktemp /tmp/codeml_XXX.ctl)
    sed "s/OG[0-9]*\(.paml\|.treefile\|_out.paml\)/OG$num\1/g" codeml.ctl >$tmp &&
    codeml $tmp
    rm $tmp
  fi
}

然后你就可以运行mycodeml OGxxx.paml

要一次对多个条目进行批处理，请使用ls和收集它们grep并注入到xargs：

ls | grep 'OG[0-9]*.paml' | xargs -l1 mycodeml

或并行化：

ls | grep 'OG[0-9]*.paml' | parallel mycodeml

Answer 1

定义一个函数或编写一个只接受一个参数的脚本，例如.pamlcodeml文件或其名称中的独特数字，并通过构造一个包装调用.ctl根据参数文件，不改变模板代码ml.ctl文件：

function mycodeml(){
  num="${1//[^0-9]/}" # keep only numbers
  if [ !-f OG$num.paml ] ;then
    echo ERR NOTFOUND $PWD/OG$num.paml >&2
  else
    tmp=$(mktemp /tmp/codeml_XXX.ctl)
    sed "s/OG[0-9]*\(.paml\|.treefile\|_out.paml\)/OG$num\1/g" codeml.ctl >$tmp &&
    codeml $tmp
    rm $tmp
  fi
}

然后你就可以运行mycodeml OGxxx.paml

要一次对多个条目进行批处理，请使用ls和收集它们grep并注入到xargs：

ls | grep 'OG[0-9]*.paml' | xargs -l1 mycodeml

或并行化：

ls | grep 'OG[0-9]*.paml' | parallel mycodeml

如何以批处理模式运行程序来处理大数据？

在批处理模式下

答案1

相关内容