我如何才能对一长串单词进行排序和去重？

Question 1

要进行重复数据删除，您需要sort -u- 它只会输出唯一的行。这是 POSIX 指定的选项，因此您可能会在任何系统上找到它。

sort -u wordlist.txt | awk 'length($0) > 7'

如果您使用的是 Windows，请使用双引号awk。请注意，排序步骤不是可选的，因为uniq需要相邻的重复行才能将其删除。

如果您遇到 Unicode 问题，这可能是您的语言环境的问题。您可以设置LC_ALL=C为强制进行本机字节值比较 - 无论如何，实际排序顺序对您来说并不重要。或者，iconv如果这是问题所在，您可以使用将文件从 Unicode 转换为另一种编码。

Answer

要进行重复数据删除，您需要sort -u- 它只会输出唯一的行。这是 POSIX 指定的选项，因此您可能会在任何系统上找到它。

sort -u wordlist.txt | awk 'length($0) > 7'

如果您使用的是 Windows，请使用双引号awk。请注意，排序步骤不是可选的，因为uniq需要相邻的重复行才能将其删除。

如果您遇到 Unicode 问题，这可能是您的语言环境的问题。您可以设置LC_ALL=C为强制进行本机字节值比较 - 无论如何，实际排序顺序对您来说并不重要。或者，iconv如果这是问题所在，您可以使用将文件从 Unicode 转换为另一种编码。

Question 2

如果有人需要在没有访问权限的情况下执行此操作awk，您还可以使用grep来选择至少给定长度的单词：

sort -u   wordlist.txt | grep '........'

Answer

如果有人需要在没有访问权限的情况下执行此操作awk，您还可以使用grep来选择至少给定长度的单词：

sort -u   wordlist.txt | grep '........'

相关内容