使用 find 搜索大量扩展名

Question 1

您可以使用grep的-f选项来搜索存储在文件中的模式列表：

# find "$dir" -type f | grep -f ext_patterns.txt

这里的文件ext_patterns.txt必须包含正则表达式的扩展名，例如：

\.html$
\.java$
\.jpg$

您可以像创建基线一样创建该文件。这是一个使用的命令awk：

find -type f -name "*.*" \
| awk -F. '{ print "\\." $NF "$" }' \
| sort -u \
> ext_patterns.txt

这里find输出具有扩展名的文件名；awk打印扩展名以及前导（转义）点和结尾$（正则表达式代码，意思是“行尾”）；并使sort -u每个图案都独一无二。

Answer

您可以使用grep的-f选项来搜索存储在文件中的模式列表：

# find "$dir" -type f | grep -f ext_patterns.txt

这里的文件ext_patterns.txt必须包含正则表达式的扩展名，例如：

\.html$
\.java$
\.jpg$

您可以像创建基线一样创建该文件。这是一个使用的命令awk：

find -type f -name "*.*" \
| awk -F. '{ print "\\." $NF "$" }' \
| sort -u \
> ext_patterns.txt

这里find输出具有扩展名的文件名；awk打印扩展名以及前导（转义）点和结尾$（正则表达式代码，意思是“行尾”）；并使sort -u每个图案都独一无二。

Question 2

假设您有 GNU find 或 FreeBSD/macOS find，您可以构造一个匹配所有模式的大型正则表达式，并使用-regex.请注意，构造正则表达式并不简单：您需要注意扩展名中的特殊字符。如果文件名的扩展名包含换行符，您当前的代码已经没有做任何明智的事情。使用 GNU 工具，您可以做到（未经测试）

new_extensions=$(find / -regextype posix-extended -name '*.*' -type f ! -regex "$old_regex" -print0 |
                 sed -z 's/.*\.//; s/[][\\$^.()|*+?]/\\&/g' |
                 sort -zu | tr '\0' '|')
if [ "$new_extensions" = "|" ]; then
  echo "No new extensions"
else
  new_regex="\\.(${new_extensions%?})\$"
fi

我认为使用 perl/python/ruby 脚本会更好。您可以从 Python 开始find2perl或使用 Python 的os.walk.

Answer

假设您有 GNU find 或 FreeBSD/macOS find，您可以构造一个匹配所有模式的大型正则表达式，并使用-regex.请注意，构造正则表达式并不简单：您需要注意扩展名中的特殊字符。如果文件名的扩展名包含换行符，您当前的代码已经没有做任何明智的事情。使用 GNU 工具，您可以做到（未经测试）

new_extensions=$(find / -regextype posix-extended -name '*.*' -type f ! -regex "$old_regex" -print0 |
                 sed -z 's/.*\.//; s/[][\\$^.()|*+?]/\\&/g' |
                 sort -zu | tr '\0' '|')
if [ "$new_extensions" = "|" ]; then
  echo "No new extensions"
else
  new_regex="\\.(${new_extensions%?})\$"
fi

我认为使用 perl/python/ruby 脚本会更好。您可以从 Python 开始find2perl或使用 Python 的os.walk.

使用 find 搜索大量扩展名

答案1

答案2

相关内容