如何将文件拆分为段落并根据每个段落中存在的标识符命名生成的片段

Question 1

使用 GNU awk

gawk -v RS="" '
    match($0, /Identifier "([^"]+)/, m) {
        print > (m[1]".txt")
        close(m[1]".txt")
    }
' sample.txt

借助 Perl，使用 CPAN 中的便捷 Path::Tiny 模块

perl -MPath::Tiny -00 -ne '/Identifier "(.+?)"/ and path("$1.txt")->spew($_)' sample.txt

Answer

使用 GNU awk

gawk -v RS="" '
    match($0, /Identifier "([^"]+)/, m) {
        print > (m[1]".txt")
        close(m[1]".txt")
    }
' sample.txt

借助 Perl，使用 CPAN 中的便捷 Path::Tiny 模块

perl -MPath::Tiny -00 -ne '/Identifier "(.+?)"/ and path("$1.txt")->spew($_)' sample.txt

Question 2

如果数据中的段落具有相同的格式（即每段十行），那么该命令split非常有效（分裂的人）。

#!/bin/bash   
#remove blank lines from the original dataset.

awk NF original_data.txt > Free_spaces_data.txt 

# split the dataset into files (paragraph per file), each paragraph is 10 lines.

split -l 10 Free_spaces_data.txt new 

 #rename the files based on the internal name within each paragraph

for f in ./new*?; do
name=$(cat $f | awk -F'"' '/Name/{print $2}')
  mv "${f}" "${name}.txt"; 
done

Answer

如果数据中的段落具有相同的格式（即每段十行），那么该命令split非常有效（分裂的人）。

#!/bin/bash   
#remove blank lines from the original dataset.

awk NF original_data.txt > Free_spaces_data.txt 

# split the dataset into files (paragraph per file), each paragraph is 10 lines.

split -l 10 Free_spaces_data.txt new 

 #rename the files based on the internal name within each paragraph

for f in ./new*?; do
name=$(cat $f | awk -F'"' '/Name/{print $2}')
  mv "${f}" "${name}.txt"; 
done

Question 3

这将采用第一个“标识符”行来提取文件名：

awk '
!/^ *$/         {BUF = BUF RS $0
                }

! FN  &&
/Identifier/    {FN = $NF ".txt"
                 gsub (/"/, "", FN)
                }
/END JOB/       {print BUF > FN
                 BUF = FN = ""
                }
' file

它跳过空行，将实际行附加到缓冲区，在第一个（FN 空）“标识符”出现时创建文件名，删除任何"，并在上打印缓冲区END JOB，重置BUF和FN为空。

Answer

这将采用第一个“标识符”行来提取文件名：

awk '
!/^ *$/         {BUF = BUF RS $0
                }

! FN  &&
/Identifier/    {FN = $NF ".txt"
                 gsub (/"/, "", FN)
                }
/END JOB/       {print BUF > FN
                 BUF = FN = ""
                }
' file

它跳过空行，将实际行附加到缓冲区，在第一个（FN 空）“标识符”出现时创建文件名，删除任何"，并在上打印缓冲区END JOB，重置BUF和FN为空。

如何将文件拆分为段落并根据每个段落中存在的标识符命名生成的片段

答案1

答案2

答案3

相关内容