使用循环检查数据集中与正则表达式匹配的记录

Question

在继续阅读之前，请阅读为什么使用 shell 循环来处理文本被认为是不好的做法？

但是如果你必须这样做，两个主要问题是

[[并且]]保留字并且必须用空格与周围的标记分开，=~操作符也必须如此
$line >> new_file.csv不执行任何操作；>>重定向标准输出，但$line不产生标准输出

你大概也希望read -r而不是简单的，read以防您的数据中有任何反斜杠。

所以

#!/bin/bash
while read -r line; do
  if [[ $line =~ ^[A-Za-z]*,[A-Z]*,[0-9]*,[A-Za-z]*,[0-9]*,[0-9]*,[0-9]*,[0-9]* ]]
  then
    printf '%s\n' "$line" >> new_file.csv;
  fi
done < dataset.csv

如果要在输出中包含标题行，那么一个简单的方法就是添加循环计数器：

#!/bin/bash
c=0
while read -r line; do
  if (( ++c == 1 )) || [[ $line =~ ^[A-Za-z]*,[A-Z]*,[0-9]*,[A-Za-z]*,[0-9]*,[0-9]*,[0-9]*,[0-9]* ]]
  then
    printf '%s\n' "$line" >> new_file.csv;
  fi
done < dataset.csv

将来你可能会发现www.shellcheck.net有助于调试您的脚本。

Answer 1

在继续阅读之前，请阅读为什么使用 shell 循环来处理文本被认为是不好的做法？

但是如果你必须这样做，两个主要问题是

[[并且]]保留字并且必须用空格与周围的标记分开，=~操作符也必须如此
$line >> new_file.csv不执行任何操作；>>重定向标准输出，但$line不产生标准输出

你大概也希望read -r而不是简单的，read以防您的数据中有任何反斜杠。

所以

#!/bin/bash
while read -r line; do
  if [[ $line =~ ^[A-Za-z]*,[A-Z]*,[0-9]*,[A-Za-z]*,[0-9]*,[0-9]*,[0-9]*,[0-9]* ]]
  then
    printf '%s\n' "$line" >> new_file.csv;
  fi
done < dataset.csv

如果要在输出中包含标题行，那么一个简单的方法就是添加循环计数器：

#!/bin/bash
c=0
while read -r line; do
  if (( ++c == 1 )) || [[ $line =~ ^[A-Za-z]*,[A-Z]*,[0-9]*,[A-Za-z]*,[0-9]*,[0-9]*,[0-9]*,[0-9]* ]]
  then
    printf '%s\n' "$line" >> new_file.csv;
  fi
done < dataset.csv

将来你可能会发现www.shellcheck.net有助于调试您的脚本。

使用循环检查数据集中与正则表达式匹配的记录

答案1

相关内容