从文本文件中提取数字

Question 1

如果您希望将单个文件的所有结果组合在一起，那么最简单的方法可能是将每个文件的全部内容放入内存并将其作为一个块进行处理。您可以通过perl取消设置行分隔符来实现这一点 - 在 perl 单行程序中执行此操作的传统方法是-0777。

label[123]_接下来，您需要一个正则表达式来匹配以或开头的十进制数字、小数点分隔符等序列label[123] =

把它放在一起：

perl -0777nE 'say "{", (join ",", /label[123](?:_| = )\K[0-9.+-]+/g), "}"' file1 file2 [...]

注：我还没有尝试解决 maybe_label1_again_but_now_I_no_longer_care_about_what_comes_after

Answer

如果您希望将单个文件的所有结果组合在一起，那么最简单的方法可能是将每个文件的全部内容放入内存并将其作为一个块进行处理。您可以通过perl取消设置行分隔符来实现这一点 - 在 perl 单行程序中执行此操作的传统方法是-0777。

label[123]_接下来，您需要一个正则表达式来匹配以或开头的十进制数字、小数点分隔符等序列label[123] =

把它放在一起：

perl -0777nE 'say "{", (join ",", /label[123](?:_| = )\K[0-9.+-]+/g), "}"' file1 file2 [...]

注：我还没有尝试解决 maybe_label1_again_but_now_I_no_longer_care_about_what_comes_after

Question 2

`sed`解决方案

保留$p标签正则表达式，例如p='label[13](_\| = )'：

sed ':a;N;$!ba;s/\n/ /g;s/'"$p"'[-.0-9]\+/&\n/g' | \
sed '/.*'"$p"'[-.0-9]\+/!d;s/.*'"$p"'\([-.0-9]\+\)/\2/' | \
sed ':a;N;$!ba;s/\n/,/g;s/.*/{&}/'

第一个命令删除换行符并在每次匹配后添加一个新的换行符，第二个命令删除没有匹配的行并提取数字，第三个命令使它们用逗号分隔并将它们括在花括号中。

$p必须包含一个有效的正则表达式和一个组（或者您需要调整第三个替换表达式的 RHS 部分），例如：

p='label1\(_\)'
p='label3\( = \)'
p='label[13]\(_\| = \)'
p='\(label1_\|label3 = \)'
p='\(height\|length\)_'

组中的多个不同字符串应该用分隔\|。

例子

$ <input cat
bla bla bla label1_5234_blablab_some_other_text_and_numbers_23343_blabla_more_text_and_numbers_maybe_label1_again_but_now_I_no_longer_care_about_what_comes_after blabla_label2_34343_this_is_some_other_number_want_to_be_able_to_extract_if_I_look_for_label2_instead_of_label1
label3 = -0.34343 
and_more_text_and_so_on_and_so_forth
$ p='label1\(_\)'
$ <input sed ':a;N;$!ba;s/\n/ /g;s/'"$p"'[-.0-9]\+/&\n/g' | sed '/.*'"$p"'[-.0-9]\+/!d;s/.*'"$p"'\([-.0-9]\+\)/\2/' | sed ':a;N;$!ba;s/\n/,/g;s/.*/{&}/'
5234
$ p='label3\( = \)'
$ <input sed ':a;N;$!ba;s/\n/ /g;s/'"$p"'[-.0-9]\+/&\n/g' | sed '/.*'"$p"'[-.0-9]\+/!d;s/.*'"$p"'\([-.0-9]\+\)/\2/' | sed ':a;N;$!ba;s/\n/,/g;s/.*/{&}/'
-0.34343
$ p='label[13]\(_\| = \)'
$ <input sed ':a;N;$!ba;s/\n/ /g;s/'"$p"'[-.0-9]\+/&\n/g' | sed '/.*'"$p"'[-.0-9]\+/!d;s/.*'"$p"'\([-.0-9]\+\)/\2/' | sed ':a;N;$!ba;s/\n/,/g;s/.*/{&}/'
{5234,-0.34343}
$ echo "height_2.3 blabla_bla_length_3.4" >>input
$ p='\(height\)_'
$ <input2 sed ':a;N;$!ba;s/\n/ /g;s/'"$p"'[-.0-9]\+/&\n/g' | sed '/.*'"$p"'[-.0-9]\+/!d;s/.*'"$p"'\([-.0-9]\+\)/\2/' | sed ':a;N;$!ba;s/\n/,/g;s/.*/{&}/'
2.3
$ p='\(height\|length\)_'
$ <input2 sed ':a;N;$!ba;s/\n/ /g;s/'"$p"'[-.0-9]\+/&\n/g' | sed '/.*'"$p"'[-.0-9]\+/!d;s/.*'"$p"'\([-.0-9]\+\)/\2/' | sed ':a;N;$!ba;s/\n/,/g;s/.*/{&}/'
{2.3,3.4}

Answer

`sed`解决方案

保留$p标签正则表达式，例如p='label[13](_\| = )'：

sed ':a;N;$!ba;s/\n/ /g;s/'"$p"'[-.0-9]\+/&\n/g' | \
sed '/.*'"$p"'[-.0-9]\+/!d;s/.*'"$p"'\([-.0-9]\+\)/\2/' | \
sed ':a;N;$!ba;s/\n/,/g;s/.*/{&}/'

第一个命令删除换行符并在每次匹配后添加一个新的换行符，第二个命令删除没有匹配的行并提取数字，第三个命令使它们用逗号分隔并将它们括在花括号中。

$p必须包含一个有效的正则表达式和一个组（或者您需要调整第三个替换表达式的 RHS 部分），例如：

p='label1\(_\)'
p='label3\( = \)'
p='label[13]\(_\| = \)'
p='\(label1_\|label3 = \)'
p='\(height\|length\)_'

组中的多个不同字符串应该用分隔\|。

例子

$ <input cat
bla bla bla label1_5234_blablab_some_other_text_and_numbers_23343_blabla_more_text_and_numbers_maybe_label1_again_but_now_I_no_longer_care_about_what_comes_after blabla_label2_34343_this_is_some_other_number_want_to_be_able_to_extract_if_I_look_for_label2_instead_of_label1
label3 = -0.34343 
and_more_text_and_so_on_and_so_forth
$ p='label1\(_\)'
$ <input sed ':a;N;$!ba;s/\n/ /g;s/'"$p"'[-.0-9]\+/&\n/g' | sed '/.*'"$p"'[-.0-9]\+/!d;s/.*'"$p"'\([-.0-9]\+\)/\2/' | sed ':a;N;$!ba;s/\n/,/g;s/.*/{&}/'
5234
$ p='label3\( = \)'
$ <input sed ':a;N;$!ba;s/\n/ /g;s/'"$p"'[-.0-9]\+/&\n/g' | sed '/.*'"$p"'[-.0-9]\+/!d;s/.*'"$p"'\([-.0-9]\+\)/\2/' | sed ':a;N;$!ba;s/\n/,/g;s/.*/{&}/'
-0.34343
$ p='label[13]\(_\| = \)'
$ <input sed ':a;N;$!ba;s/\n/ /g;s/'"$p"'[-.0-9]\+/&\n/g' | sed '/.*'"$p"'[-.0-9]\+/!d;s/.*'"$p"'\([-.0-9]\+\)/\2/' | sed ':a;N;$!ba;s/\n/,/g;s/.*/{&}/'
{5234,-0.34343}
$ echo "height_2.3 blabla_bla_length_3.4" >>input
$ p='\(height\)_'
$ <input2 sed ':a;N;$!ba;s/\n/ /g;s/'"$p"'[-.0-9]\+/&\n/g' | sed '/.*'"$p"'[-.0-9]\+/!d;s/.*'"$p"'\([-.0-9]\+\)/\2/' | sed ':a;N;$!ba;s/\n/,/g;s/.*/{&}/'
2.3
$ p='\(height\|length\)_'
$ <input2 sed ':a;N;$!ba;s/\n/ /g;s/'"$p"'[-.0-9]\+/&\n/g' | sed '/.*'"$p"'[-.0-9]\+/!d;s/.*'"$p"'\([-.0-9]\+\)/\2/' | sed ':a;N;$!ba;s/\n/,/g;s/.*/{&}/'
{2.3,3.4}

Question 3

对于单个文件

grep -oP "(?<=label1_)[0-9.+-]+[^_ ]+" ./file | head -n 1 >> ./tmpfile
grep -oP "(?<=label3 = )[0-9.+-]+[^_ ]+" ./file | head -n 1 >> ./tmpfile
paste -sd, ./tmpfile | awk '{ print "{"$0"}" }' >> ./newfile
rm ./tmpfile

对于多个文件在文件夹中。cd
到该文件夹并运行：

for file in *; do
if [ "$file" == "newfile" ] ; then continue; fi
grep -oP "(?<=label1_)[0-9.+-]+[^_ ]+" $file | head -n 1 >> ./tmpfile
grep -oP "(?<=label3 = )[0-9.+-]+[^_ ]+" $file | head -n 1 >> ./tmpfile
paste -sd, ./tmpfile | awk '{ print "{"$0"}" }' >> ./newfile
rm ./tmpfile
done

Answer

对于单个文件

grep -oP "(?<=label1_)[0-9.+-]+[^_ ]+" ./file | head -n 1 >> ./tmpfile
grep -oP "(?<=label3 = )[0-9.+-]+[^_ ]+" ./file | head -n 1 >> ./tmpfile
paste -sd, ./tmpfile | awk '{ print "{"$0"}" }' >> ./newfile
rm ./tmpfile

对于多个文件在文件夹中。cd
到该文件夹并运行：

for file in *; do
if [ "$file" == "newfile" ] ; then continue; fi
grep -oP "(?<=label1_)[0-9.+-]+[^_ ]+" $file | head -n 1 >> ./tmpfile
grep -oP "(?<=label3 = )[0-9.+-]+[^_ ]+" $file | head -n 1 >> ./tmpfile
paste -sd, ./tmpfile | awk '{ print "{"$0"}" }' >> ./newfile
rm ./tmpfile
done

从文本文件中提取数字

答案1

答案2

`sed`解决方案

例子

答案3

相关内容

答案1

答案2

sed解决方案

例子

答案3

相关内容

`sed`解决方案