使用 find 或 grep 查找来自不同编码系统（Windows 到 Linux）的带重音字符的文件名

Question 1

GNU 工具似乎有代码，当匹配正则表达式字符类时，如果字符编码支持，重音字母将被视为其基本字母。这旨在作为一种“按我的意思做”的功能，使编写正则表达式更容易，但在这种情况下，它会妨碍你。

尝试对“find”命令行进行以下修改：

LANG=C find . -regex '.*[^a-zA-Z./].*'

这仅在“find”命令的上下文中设置 LANG 环境变量。由于“C”语言编码仅支持 ASCII，因此重音字母将不再被视为其基本字母，因此将由您的正则表达式正确匹配。

Answer

GNU 工具似乎有代码，当匹配正则表达式字符类时，如果字符编码支持，重音字母将被视为其基本字母。这旨在作为一种“按我的意思做”的功能，使编写正则表达式更容易，但在这种情况下，它会妨碍你。

尝试对“find”命令行进行以下修改：

LANG=C find . -regex '.*[^a-zA-Z./].*'

这仅在“find”命令的上下文中设置 LANG 环境变量。由于“C”语言编码仅支持 ASCII，因此重音字母将不再被视为其基本字母，因此将由您的正则表达式正确匹配。

Question 2

Jander 的回答非常完美，对于那些有兴趣了解更多信息的人来说，这里还有一个提示。

使用 LANG=C 时，find 会显示带有问号的非 ASCII 字符。要将其恢复为文件系统的正常显示，只需将输出通过管道传输到 cat。

LANG=C find . -regex '.*[^a-zA-Z./-].*'
./??verest
./????????????-rest
./Abc?def

LANG=C find . -regex '.*[^a-zA-Z./-].*' | cat
./éverest
./ÉÈéèáà-rest
./Abc�def

Answer

Jander 的回答非常完美，对于那些有兴趣了解更多信息的人来说，这里还有一个提示。

使用 LANG=C 时，find 会显示带有问号的非 ASCII 字符。要将其恢复为文件系统的正常显示，只需将输出通过管道传输到 cat。

LANG=C find . -regex '.*[^a-zA-Z./-].*'
./??verest
./????????????-rest
./Abc?def

LANG=C find . -regex '.*[^a-zA-Z./-].*' | cat
./éverest
./ÉÈéèáà-rest
./Abc�def

Question 3

find . | grep -E '.*[^[:print:]].*'

有关所有 posix 字符类的列表，请参阅： http://www.regular-expressions.info/posixbrackets.html

Answer

find . | grep -E '.*[^[:print:]].*'

有关所有 posix 字符类的列表，请参阅： http://www.regular-expressions.info/posixbrackets.html

使用 find 或 grep 查找来自不同编码系统（Windows 到 Linux）的带重音字符的文件名

答案1

答案2

答案3

相关内容