删除包含非字母字符的单词

Question 1

基本上，这是一长串需要删除的内容：

sed -r 's/(^[[:digit:]]+\b|\b[[:digit:]]+[[:punct:]]*[[:alpha:]]+\b|\b[[:alpha:]]+[[:digit:]]+[[:alpha:]]+\b|\b[[:alpha:]]+[[:punct:]]+[[:alpha:]]+\b|[[:punct:]]+.*[[:punct:]]+)//g' file

删除这些：

行首的数字
以数字开头、可能包含标点符号并以字母结尾的单词
由字母、数字、字母组成的单词
由 alpha, punct, alpha 组成的单词
以标点符号开头和结尾的序列

Answer

基本上，这是一长串需要删除的内容：

sed -r 's/(^[[:digit:]]+\b|\b[[:digit:]]+[[:punct:]]*[[:alpha:]]+\b|\b[[:alpha:]]+[[:digit:]]+[[:alpha:]]+\b|\b[[:alpha:]]+[[:punct:]]+[[:alpha:]]+\b|[[:punct:]]+.*[[:punct:]]+)//g' file

删除这些：

行首的数字
以数字开头、可能包含标点符号并以字母结尾的单词
由字母、数字、字母组成的单词
由 alpha, punct, alpha 组成的单词
以标点符号开头和结尾的序列

Question 2

使用正则表达式难道不是最好地解决此问题吗？

([AZ]+制表符[0-9]+）或类似的东西

Answer

使用正则表达式难道不是最好地解决此问题吗？

([AZ]+制表符[0-9]+）或类似的东西

Question 3

因此，如果我理解正确的话，您希望保留包含所有单词或所有数字的单词。但没有其他内容，如果是这样的话，应该可以这样做：

(^|\s+)([A-Za-z]+|\d+)((?=\s)|(?=$))

（与多行标志一起使用）

当运行示例输入时，它会找到所有全是数字或全是单词的输入。与查找不匹配的每个单词相比，这是一种更简单的解决方案，但是您可以使用它来提取数据，而不是替换无效数据。

Answer

因此，如果我理解正确的话，您希望保留包含所有单词或所有数字的单词。但没有其他内容，如果是这样的话，应该可以这样做：

(^|\s+)([A-Za-z]+|\d+)((?=\s)|(?=$))

（与多行标志一起使用）

当运行示例输入时，它会找到所有全是数字或全是单词的输入。与查找不匹配的每个单词相比，这是一种更简单的解决方案，但是您可以使用它来提取数据，而不是替换无效数据。

删除包含非字母字符的单词

答案1

答案2

答案3

相关内容