如何区分 case 语句中的大写和小写字符?

如何区分 case 语句中的大写和小写字符?

我正试图恢复我生锈的 shell 脚本编写技能,但我遇到了 case 语句的问题。我在下面的程序中的目标是评估用户提供的字符串是否以大写字母或小写字母开头:

# practicing case statements
echo "enter a string"
read yourstring
echo -e "your string is $yourstring\n"

case "$yourstring" in
    [A-Z]* )
       echo "your string begins with a Capital Letter"
       ;; 
    [a-z]* )
       echo "your string begins with a lowercase letter"
       ;; 
    *)     
       echo "your string did not begin with an English letter"
       ;;
esac

myvar=nope

case $myvar in
   N*)
     echo "begins with CAPITAL 'N'"
     ;;
   n*)
     echo "begins with lowercase 'n'"
     ;;
   *)
     echo "hahahaha"
     ;;
esac

当我输入以小写字母开头的字符串(例如,不带引号的“mystring”)时,case 语句将我的输入与第一个 case 相匹配,并通知我该字符串以大写字母开头。我写了第二个 case 语句,看看我是否犯了一些明显的语法或逻辑错误(也许我仍然是),但我没有同样的问题。第二种情况结构正确地告诉我 $myvar 保存的字符串以小写字母开头。

我尝试过使用引号将 $yourstring 括在 case 语句的第一行中,并且尝试过不使用引号。我读到了“shopt”选项并验证了“nocasematch”已关闭。 (为了更好地衡量,我打开它并再次尝试,但我仍然没有从第一个 case 语句中得到正确的结果。)我还尝试使用 sh 和 bash 运行脚本,但输出是相同的。 (我使用“sh ./case1.sh”和“bash ./case1.sh”显式调用 shell,因为我没有设置执行位。复制文件并在新文件上设置执行位不会更改输出.)

虽然我不理解使用“-x”调试选项运行 shell 的所有输出,但输出显示 shell 从第一个“case”行进展到执行第一个模式后的命令。我将此解释为第一个模式与输入字符串匹配,但我不确定为什么。

当我切换前两个模式(和相应命令)的顺序时,case 语句对于小写字母成功,但错误地将“MYSTRING”报告为以小写字母开头。由于任何字母都被检测为匹配首先出现的模式,我认为我有一个逻辑错误......但我不确定是什么。

我在 unix.com 上发现了“pludi”的帖子,其中建议“小写和大写字符的测试是 [az] 和 [AZ]。这在某些区域设置和/或 Linux 发行版中不再有效。” (看https://www.unix.com/shell-programming-and-scripting-128929-example-switch-case-bash.html)果然,用 [[:upper:]] 和 [[:lower:]] 替换字符范围解决了问题。

我使用的是 Fedora 31,我的区域设置输出如下:

LANG=en_US.UTF-8
LC_CTYPE="en_US.UTF-8" 
LC_NUMERIC="en_US.UTF-8" 
LC_TIME="en_US.UTF-8" 
LC_COLLATE="en_US.UTF-8" 
LC_MONETARY="en_US.UTF-8" 
LC_MESSAGES="en_US.UTF-8" 
LC_PAPER="en_US.UTF-8" 
LC_NAME="en_US.UTF-8" 
LC_ADDRESS="en_US.UTF-8" 
LC_TELEPHONE="en_US.UTF-8" 
LC_MEASUREMENT="en_US.UTF-8" 
LC_IDENTIFICATION="en_US.UTF-8" 
LC_ALL= 

我想知道我是否不理解字符范围,或者不理解 case 语句中模式匹配的工作原理,或者底层 shell 功能是否发生了变化(以及为什么?)。如果有人有耐心,我将非常感谢解释;我也很乐意阅读相关文档。谢谢!

答案1

这是一个简单的答案,毫无疑问其他人可以取代。

现在,字符集排序因使用的区域设置而异。引入区域设置的概念是为了支持不同的民族及其不同的语言。正如您从输出中看到的,locale现在解决了几个不同的领域 - 不仅仅是整理。

在你的情况下,它是美国,出于排序和整理的目的,字母表是 AaBbCc...Zz 或 A=a、B=b、C=c 等(我忘记了哪个,而且我不在计算机上我可以验证其中之一)。区域设置非常复杂,并且在某些区域设置中可能存在对于排序和校对而言不可见的字符。根据使用的区域设置,相同的字符可以进行不同的排序。

正如您所发现的,识别小写字符的正确方法是使用[[:lower:]];这将在必要时包括重音字符,甚至不同字母表中的小写字符(希腊语、西里尔语等)。

如果您想要经典排序,您可以通过设置恢复每个应用程序甚至每个命令LC_ALL=C。举一个人为的例子,

grep some_pattern | LC_ALL=C sort | nl

答案2

字典顺序和 ASCII 顺序之间一直存在着一场持久的斗争。
许久。

从Unicode的角度来看,字符应该按照当地习惯进行排序字典顺序,因此 a A b B ... 表示美国字母(ASCII 字母)。这通常与 en_US.utf-8 语言环境中的 [a-zA-Z] 范围匹配。国际化通常也同意这一点。

从程序员的角度来看,由于 C 语言的原因,[az] 应该只匹配从 97 到 122 的 ascii 字符,如下所示字节值。 [AZ] 也是如此。这通常与 C 语言将字符定义为一个字节相匹配。一些剧本作者想使用这个定义。

这场斗争时常从一种解释转变为另一种解释。
有时 [az] 范围仅变为abcdefghijklmnopqrstuvwxyz.
有时它会转变为aAbBcCdDeEfFgGhHiIjJkKlLmMnNoOpPqQrRsStTuUvVwWxXyYz.
或者其他一些更复杂的列表。

细节很复杂。历史悠久。战斗仍在激烈进行。


所以,你可能会得到(测试字符串book):

  • 对于 bash 版本 2、3 和 4,“你的字符串以大写字母开头”
  • bash 版本 5(和 1)的“你的字符串以小写字母开头”
  • 大多数 shell 会将其报告为“小写字母”。

如果您测试字符串úber(在 en_US.UTF-8 中),您将得到:

  • ksh/ATT-sh 中的“小写”
  • dash、zsh、bash 5.0+ 或 [lm]ksh 中的“不是英文字母”。
  • bash 2、3 和 4 中的“大写字母”。

以及字符串Úber

所以,结果是多种多样的。

您还可以设置 LC_ALL=C 来强制解释为a-z仅小写字母(并且A-Z仅是大写字母)。这会将用于的排序规则冻结为仅来自 的排序规则C。如果区域设置发生变化,则不会发生任何变化。一个更健壮的脚本,但适应性较差的脚本。

还有一个选项可以使用[[:lower:]],但同样,保证是 ASCII 范围 az仅有的在 C 语言环境中。在 POSIX 的未来版本(但尚未于 2020 年发布)中,它可能会强制应用于所有语言环境。

综合考虑,确保外部决定(来自 Unix 规范的 shell 开发人员)不会更改代码范围的唯一安全方法是:

# practicing case statements
echo "enter a string"
read yourstring
echo -e "your string is $yourstring\n"

low='abcdefghijklmnopqrstuvwxyz'
cap='ABCDEFGHIJKLMNOPQRSTUVWXYZ'

case "$yourstring" in
    [$cap]* ) echo "your string begins with a Capital Letter"   ;; 
    [$low]* ) echo "your string begins with a lowercase letter" ;; 
    *)      echo "your string did not begin with an English letter" ;;
esac

相关内容