我正在使用排序来预处理一些大型数据文件(包含电子邮件地址)。但它产生的顺序不是我所期望的(因此破坏了数据的后续处理)。具体来说,排序似乎忽略了标点符号。
例如(为了隐私而截断的完整电子邮件地址)sort -u
给了我这个:
Got this....
aaala
a.abu
a.abu
aacs.
aad19
a.aga
a.agh
aagro
a.agu
aakyl
a.ala
a.ale
aalig
当我期待这个的时候......
a.abu
a.abu
a.aga
a.agh
a.agu
a.ala
a.ale
aaala
aacs.
aad19
aagro
aakyl
aalig
(“-n”、“-d”和“-g”标志各自给出相同的结果)。
如何说服sort
根据 ASCII/UTF8 字符代码进行排序?