我有数百万个 xml 文件。 xml 文件的名称遵循以下模式:
ABC_20180912_12345.xml
ABC_20180412_98765.xml
ABC_20180412_45678.xml
由此,我想根据下划线后的名称将文件复制到不同的文件夹。为了识别文件,我有一个保存在 csv 文件中的列表,它为我提供了所需的名称。一个例子:
vcfile="/home/mycomp/Documents/wd/vehicles.csv"
vcpvr=`cat $vcfile`
echo $vcpvr 为我提供了此列表:
2894 4249 5464
我能够循环遍历文件夹中的 xmlfiles,打开每个文件并 grep 查看该文件是否包含该字符串,如果包含,则将文件移动到新位置。这是有效的。
完整代码:
#filesToExtract is the interim folder
fold="/home/mycomp/filesToExtract";
query=$fold/*.xml
vcfile="/home/mycomp/Documents/wd/vehicles.csv"
vcpvr=`cat $vcfile`
#xmlfiles - keep all tar.gz files here
cd ~/xmlfiles/
COUNTER=1
for f in *.tar.gz
do
echo " $COUNTER "
tar zxf "$f" -C ~/filesToExtract
for k in $query
do
file $k | if grep -q "$vcpvr"
then
mv $k ~/xmlToWork/
fi
done
#xmltowork is the final folder
#rm -r ~/filesToExtract/*.xml
COUNTER=$((COUNTER + 1))
done
但由于这会查找文件内的字符串而不是文件名,因此处理数百万个文件需要更长的时间。相反,我想查找文件名中的字符串,如果存在,则移动文件。这是我尝试过的:
target="/home/mycomp/xmlToWork"
for k in $query
do
if [[ $k =~ "$vcpvr" ]]; then
cp -v $k $target
fi
done
但这给了我一个错误tarextract.sh: 12: tarextract.sh: [[: not found
答案1
$cvfile 也是一个列表,不是吗?所以我会这样做:
for k in "$query"
do
for l in "$cvfile"
do
if [[ "$k" =~ "$l" ]]
then
cp -v "$k" "$target"
fi
done
done