将小文件合并为具有特定大小的大文件并保留行

Question 1

它不是最快的，但它可以完成你所要求的事情：

#!/bin/bash
minimumsize=10000
actualsize=0
infile=$(basename "$1")
filenum=1
outdir=/home/user/bin/testing/tmp
outfile=$infile.out$filenum

if [ ! -f "$outdir/$outfile" ]; then
    mkdir -p "`dirname \"$outdir/$outfile\"`" 2>/dev/null
fi

while read line
do
    if [ $actualsize -ge $minimumsize ]; then
        (( filenum++ ))
        outfile=$infile.out$filenum
        if [ ! -f "$outdir/$outfile" ]; then
            mkdir -p "`dirname \"$outdir/$outfile\"`" 2>/dev/null
        fi
    fi
    echo $line >> $outdir/$outfile
    actualsize=$(wc -c "$outdir/$outfile" | cut -f 1 -d ' ')
done < $1

设置minimumsize和outdir变量，然后使用您想要按行或大小拆分的文件的路径调用它。

我确信有一个命令可以执行此操作，而且速度更快。

Answer

它不是最快的，但它可以完成你所要求的事情：

#!/bin/bash
minimumsize=10000
actualsize=0
infile=$(basename "$1")
filenum=1
outdir=/home/user/bin/testing/tmp
outfile=$infile.out$filenum

if [ ! -f "$outdir/$outfile" ]; then
    mkdir -p "`dirname \"$outdir/$outfile\"`" 2>/dev/null
fi

while read line
do
    if [ $actualsize -ge $minimumsize ]; then
        (( filenum++ ))
        outfile=$infile.out$filenum
        if [ ! -f "$outdir/$outfile" ]; then
            mkdir -p "`dirname \"$outdir/$outfile\"`" 2>/dev/null
        fi
    fi
    echo $line >> $outdir/$outfile
    actualsize=$(wc -c "$outdir/$outfile" | cut -f 1 -d ' ')
done < $1

设置minimumsize和outdir变量，然后使用您想要按行或大小拆分的文件的路径调用它。

我确信有一个命令可以执行此操作，而且速度更快。

Question 2

一个小的 shell 脚本应该可以解决这个问题。

#!/bin/bash
file="part"
ext=".txt"
n=1
while read line
do
  fname=$file$n$ext
  echo $line >> $fname
  bytes=`wc -c $fname | cut -f1 -d' '`
  if [ $bytes -ge 10485760 ]
  then
    n=$((n+1))
  fi
done < input.txt

input.txt是您的输入文件，脚本应该产生类似part1.txt、、 ...part2.txt的输出part3.txt，每个输出包含约 10 MB 的数据。

Answer

一个小的 shell 脚本应该可以解决这个问题。

#!/bin/bash
file="part"
ext=".txt"
n=1
while read line
do
  fname=$file$n$ext
  echo $line >> $fname
  bytes=`wc -c $fname | cut -f1 -d' '`
  if [ $bytes -ge 10485760 ]
  then
    n=$((n+1))
  fi
done < input.txt

input.txt是您的输入文件，脚本应该产生类似part1.txt、、 ...part2.txt的输出part3.txt，每个输出包含约 10 MB 的数据。

将小文件合并为具有特定大小的大文件并保留行

答案1

答案2

相关内容