为什么不将 shell glob 视为正则表达式的“方言”?

为什么不将 shell glob 视为正则表达式的“方言”?

我经常混淆 Bash 3.x shell 全局变量:

?      # Match any single character.
*      # Match any string of characters (up until the asterisk).
[set]  # Match any character in set (but not the entire set itself).
[!set] # Match any character not in set.

使用正则表达式(特别是聚合酶链式反应)。

我的问题是为什么不将它们视为“Bash 正则表达式”(就像我们有“JavaScript 正则表达式”)?

为什么不将它们视为正则表达式的另一种“方言”?

当然,这将是非正统的,但我不确定是否有任何形式逻辑上的理由不这样做。

答案1

文件名通配模式和正则表达式在某种程度上有语法重叠,但它们的工作方式根本不同。

正则表达式e将与字符串匹配(在其中),hello而文件名通配模式e则不会。通配模式是隐式锚定的,因此通配模式e相当于正则表达式,看起来像^e$,但它们的应用程序可能不同(正则表达式将匹配文本中的完整行,而通配模式通常会匹配单个文件名)。

文件名通配模式也没有任何限定前一个表达式的特殊字符,例如正则表达式中的*或,或者像正则表达式中那样对表达式的各个部分进行分组的任何工具,或者像正则表达式中那样在可能的子模式之间交替的工具在正则表达式中。有些 shell 显然添加了其中的一些内容,例如,启用时就是如此。?(...)|bashshopt -s extglob

通配模式与正则表达式有不同的用途。正则表达式是主要是用于从文本中选择/匹配字符串,而文件名通配模式是主要是(但不限于)用于匹配文件名或从目录生成现有名称的列表。通配模式用于匹配字符串例如case ... esac,但 POSIX shell 从不使用正则表达式从目录生成名称列表,除非扩展具有这种能力。

两种类型的模式均由 POSIX 标准定义:

对于通配模式,该标准首先说

本节中描述的模式匹配表示法用于指定 shell 中匹配字符串的模式。从历史上看,模式匹配表示法与 XBD 正则表达式中描述的正则表达式表示法相关,但略有不同。因此,该模式匹配表示法的规则描述为基于正则表达式表示法的描述,经过修改以考虑差异。

正则表达式有几种“方言”,例如您提到的 PCRE,但文件名通配模式实际上不能说是其中之一。

有几种模式语言与 shell 的文件名通配模式类似,例如 SQL 查询中使用的模式LIKE。这些都非常简单,通常作为匹配字符串位的便捷方式提供。相比之下,正则表达式要复杂得多。


你提到“bash正则表达式”。贝壳bash支持正则表达式,但不支持文件名匹配。在 中[[ ... ]]=~运算符对左侧的字符串与右侧的正则表达式执行正则表达式匹配。 shell 以这种方式支持的正则表达式类型bash是正则表达式的标准扩展集。有关详细信息,请参阅bash系统手册。

答案2

Glob 和正则表达式是两种不同的模式语言。某些模式的语义存在一些重叠这一事实并不意味着其中一种模式一定是另一种模式的“方言”。每个使用过两者的人都知道它们的相似之处,但保持名称不同可以减少混淆的可能性。

与此相关的是,我发现不幸的是,如此多类型的正则表达式(至少是基本的、扩展的和具有变体的 Perl)具有非常相似的名称。根据我的经验,大多数人都没有限定他们的意思,有时会造成不必要的混乱。如果这些口味被赋予更独特的名称,那么谈论它们可能会更容易而不会产生误解。

相关内容