我目前有一个脚本,可以根据 find 的输出生成 R 命令
#!/bin/bash
PATHX="/path/to/my/files"
find "${PATHX}" -maxdepth 1 -type f -name "*.csv" | while read d; do
FN=$(echo -n "${d}" | cut -d/ -f5 | cut -d. -f1)
echo "${FN}<-read.csv(\"${PATHX}/${FN}.csv\",header=TRUE)"
# <snip> etc .etc. etc.
echo "${FN}_2y<-tail(${FN}_log,730)"
done
这很好用。但我在使用一个 R 命令时遇到了一个问题:
df<-data.frame(list,of,columns,goes,here)
我不知道如何将其集成到上面的 find/while 中,即我需要输出一个列表${FN}_2年进入 data.frame() 函数。
例如,假设我的脚本输出:
- a_2y
- b_2y
- c_2y
我需要以 df<-data.frame(a_2y,b_2y,c_2y) 结束
进一步澄清评论中的问题,我只需要一个 data.frame 实例,在所有 csv 输入都被解析后就在最后。
答案1
您可以将名称收集到变量中fns
并在最后回显该变量。由于您有一个管道,因此需要将变量保留在与 while/do/done 相同的子 shell 中。${fns:1}
是变量的子字符串,删除最初的额外逗号。
#!/bin/bash
PATHX="/path/to/my/files"
find "${PATHX}" -maxdepth 1 -type f -name "*.csv" |
( fns=
while read d; do
FN=$(echo -n "${d}" | cut -d/ -f3 | cut -d. -f1)
echo "${FN}<-read.csv(\"${PATHX}/${FN}.csv\",header=TRUE)"
# <snip> etc .etc. etc.
echo "${FN}_2y<-tail(${FN}_log,730)"
fns+=",${FN}_2y"
done
echo "df<-data.frame(${fns:1})"
)
答案2
这类事情在shell 脚本中更容易完成(尽管如果您使用awk
类似bash支持数组的工具,它比使用不带数组的工具更容易一些。您在引用和通配符或您不希望在 shell 脚本中进行扩展,而不是在or中进行扩展)perl
sh
which
sh
perl
awk
例如:
#!/usr/bin/perl
use strict;
my $pathx='/path/to/my/files';
my $dh;
my @frames=();
# get list of .csv files from $pathx
opendir($dh, $pathx) || die "can't open directory '$pathx': $!\n";
my @csvfiles = grep { /\.csv$/ && -f "$pathx/$_" } readdir($dh);
closedir($dh);
foreach my $f (@csvfiles) {
my @fields=split(/\./,$f);
my $fn=$fields[@fields-2]; # perl array indices start from 0, not 1.
printf '%s<-read.csv("%s",header=TRUE)'."\n", $fn, "$pathx/$f";
# <snip> etc .etc. etc.
printf '%s_2y<-tail(%s_log,730)'."\n", $fn, $fn;
push @frames,"${fn}_2y";
}
print "df-<data.frame(", join(',',@frames), ")\n";
注意:如果需要目录递归,可以使用该File::Find
模块而不是简单的模块。readdir()
示例输出(带有文件a.csv
、b.csv
和c.csv
):
a<-read.csv("/path/to/my/files/a.csv",header=TRUE)
a_2y<-tail(a_log,730)
b<-read.csv("/path/to/my/files/b.csv",header=TRUE)
b_2y<-tail(b_log,730)
c<-read.csv("/path/to/my/files/c.csv",header=TRUE)
c_2y<-tail(c_log,730)
df-<data.frame(a_2y,b_2y,c_2y)
或与awk
:
注意:awk 没有join()
函数,所以我必须写一个。 也awk
没有readdir()
函数,因此最简单的方法是将 的输出通过管道传输find
到其中(sh
如果需要,编写一个包装器脚本来执行此操作)。
#!/usr/bin/awk -f
BEGIN {
FS="[./]";
delete A; # has side-effect of defining A as an array
};
# i isn't an argument to this function, it's a local variable.
# in awk, extra whitespace separates function args from declaration
# of local variable(s)
function join(array,sep, i) {
result=array[1]; # awk array indices start from 1
for (i=2;i<=length(array);i++) result = result sep array[i];
return result;
};
# main code block, run on every input line
{
fn=$(NF-1);
printf "%s<-read.csv(\"%s\",header=TRUE)\n", fn, $0;
# <snip> etc .etc. etc.
printf "%s_2y<-tail(%s_log,730)\n", fn, fn;
A[length(A)+1] = sprintf("%s_2y",fn);
};
END {
print "df-<data.frame(" join(",",A) ")";
}
另存为,例如,myscript.awk
使其可执行chmod
并运行为:
find "${PATHX}" -maxdepth 1 -type f -name "*.csv" | ./myscript.awk
输出与版本相同perl
。
最后,在 bash 中使用相同的算法:
#!/bin/bash
PATHX="/path/to/my/files"
declare -a frames=()
# get list of .csv files and store in array csvfiles.
csvfiles=( $(find "$PATHX" -maxdepth 1 -type f -name '*.csv' ) )
function join() {
local sep result i
sep="$1" ; shift
result="$1" ; shift
for i in "$@" ; do result="$result$sep$i" ; done
printf '%s' "$result"
}
for f in "${csvfiles[@]}" ; do
fn=$(basename "$f" '.csv')
printf "%s<-read.csv(\"%s\",header=TRUE)\n" $fn $f;
# <snip> etc .etc. etc.
printf "%s_2y<-tail(%s_log,730)\n" $fn $fn;
frames+=( "${fn}_2y" )
done
echo 'df-<data.frame('$( join ',' "${frames[@]}" )')';
这可以避免while read
循环,而循环几乎总是处理 shell 脚本中一系列行的最糟糕的方法。在数组周围使用awk
orperl
或sed
or循环 - 任何可以避免使用循环的方法。for
while read