如何根据指定的行数拆分 CSV 文件？

Question 1

为了完整性，这里有一些小的改进：

您可以保存标题一次并多次重复使用
sed您可以在不使用临时文件的情况下将标题插入拆分文件中

像这样：

header=$(head -n 1 file.csv)
tail -n +2 file.csv | split -l 20
for file in x??; do
    sed -i -e 1i$'\\\n'"$header" "$file"
done

有$'\\\n'一个用反斜杠转义的 NEWLINE 字符。该sed表达式的意思是：$header在第一行之前插入。

Answer

为了完整性，这里有一些小的改进：

您可以保存标题一次并多次重复使用
sed您可以在不使用临时文件的情况下将标题插入拆分文件中

像这样：

header=$(head -n 1 file.csv)
tail -n +2 file.csv | split -l 20
for file in x??; do
    sed -i -e 1i$'\\\n'"$header" "$file"
done

有$'\\\n'一个用反斜杠转义的 NEWLINE 字符。该sed表达式的意思是：$header在第一行之前插入。

Question 2

这应该可以没有CSV 标题：

tail -n +2 file.csv | split -l 20

然后，您可以将标题添加到每个文件中：

for file in x*
do
    (head -n 1 file.csv; cat "$file") > "$file".new
    mv "$file".new "$file" # Stolen from @PawanMude's answer
done

Answer

这应该可以没有CSV 标题：

tail -n +2 file.csv | split -l 20

然后，您可以将标题添加到每个文件中：

for file in x*
do
    (head -n 1 file.csv; cat "$file") > "$file".new
    mv "$file".new "$file" # Stolen from @PawanMude's answer
done

Question 3

尝试：

fn="infile" c=0
{ 
  read header
  split -a 3 -l 3 - "$fn"
  for f in "$fn"???; do
    c=$((c+1))
    printf "%s\n" "$header" | cat - "$f" > "${f%???}-$c" && rm "$f"
  done 
} < $fn

或者尝试使用 awk：

awk 'NR==1{h=$0; next} !((NR-2)%n){close(f); f=FILENAME "-" ++c; print h>f}{print>f}' n=3 infile

多行版本：

awk '
  NR==1 {
    h=$0
    next
  }
  !((NR-2)%n) {
    close(f)
    f=FILENAME "-" ++c
    print h>f
  }
  {
    print>f
  }
' n=3 infile

Answer

尝试：

fn="infile" c=0
{ 
  read header
  split -a 3 -l 3 - "$fn"
  for f in "$fn"???; do
    c=$((c+1))
    printf "%s\n" "$header" | cat - "$f" > "${f%???}-$c" && rm "$f"
  done 
} < $fn

或者尝试使用 awk：

awk 'NR==1{h=$0; next} !((NR-2)%n){close(f); f=FILENAME "-" ++c; print h>f}{print>f}' n=3 infile

多行版本：

awk '
  NR==1 {
    h=$0
    next
  }
  !((NR-2)%n) {
    close(f)
    f=FILENAME "-" ++c
    print h>f
  }
  {
    print>f
  }
' n=3 infile

Question 4

使用 GNU Parallel：

cat bigfile.csv | parallel -N20 --header : --pipe 'cat > {#}'

如果您需要对每个部分运行一个命令，那么 GNU Parallel 也可以帮助您做到这一点：

cat bigfile.csv | parallel -N20 --header : --pipe my_program_reading_from_stdin

cat bigfile.csv | parallel -N20 --header : --pipe --cat my_program_reading_from_a_file {}

Answer

使用 GNU Parallel：

cat bigfile.csv | parallel -N20 --header : --pipe 'cat > {#}'

如果您需要对每个部分运行一个命令，那么 GNU Parallel 也可以帮助您做到这一点：

cat bigfile.csv | parallel -N20 --header : --pipe my_program_reading_from_stdin

cat bigfile.csv | parallel -N20 --header : --pipe --cat my_program_reading_from_a_file {}

如何根据指定的行数拆分 CSV 文件？

答案1

答案2

答案3

答案4

相关内容