如何将一个文本文件拆分为多个文本文件？

Question 1

和分割来自 GNU coreutils（非嵌入式 Linux、Cygwin）：

csplit -f entry -b '%d.txt' entry.txt '/^\[ .* \]$/' '{*}'

您最终会得到一个额外的空文件entry0.txt（包含第一个标头之前的部分）。

标准分割缺少{*}无限重复器和-b指定后缀格式的选项，因此在其他系统上，您必须先计算部分的数量，然后重命名输出文件。

csplit -f entry -n 9 entry.txt '/^\[ .* \]$/' "{$(egrep -c '^'\[ .* \]$' <entry.txt)}"
for x in entry?????????; do
  y=$((1$x - 1000000000))
  mv "entry$x" "entry$y.txt"
done

Answer

和分割来自 GNU coreutils（非嵌入式 Linux、Cygwin）：

csplit -f entry -b '%d.txt' entry.txt '/^\[ .* \]$/' '{*}'

您最终会得到一个额外的空文件entry0.txt（包含第一个标头之前的部分）。

标准分割缺少{*}无限重复器和-b指定后缀格式的选项，因此在其他系统上，您必须先计算部分的数量，然后重命名输出文件。

csplit -f entry -n 9 entry.txt '/^\[ .* \]$/' "{$(egrep -c '^'\[ .* \]$' <entry.txt)}"
for x in entry?????????; do
  y=$((1$x - 1000000000))
  mv "entry$x" "entry$y.txt"
done

Question 2

这是一句漂亮、简单、令人傻眼的俏皮话：

$ gawk '/^\[/{match($0, /^\[ (.+?) \]/, k)} {print >k[1]".txt" }' entry.txt

这将适用于任何文件大小，无论每个条目中有多少行，只要每个条目标题看起来像[ blahblah blah blah ].注意开盘之后[和闭盘之前的空间]。

解释：

awk并gawk逐行读取输入文件。读取每一行时，其内容都会保存在$0变量中。在这里，我们告诉gawk匹配方括号内的任何内容，并将其匹配项保存到数组中k。

因此，每次匹配正则表达式时，即对于文件中的每个标头，k[1] 将具有该行的匹配区域。即，“entry1”、“entry2”或“entry3”或“entryN”。

最后，我们将每一行打印到一个名为的文件中<whatever value k currently has>.txt，即entry1.txt、entry2.txt ...entryN.txt。

这个方法将是很多对于较大的文件，比 perl 更快。

Answer