根据 en_US.UTF-8 排序不正确

根据 en_US.UTF-8 排序不正确

当我按 en_US.UTF-8 排序时,我发现排序命令有奇怪的行为。

我正在尝试对此文件进行排序(LC_COLLATE=en_US.UTF-8 排序测试数据):

㐃㐄

▼▽◢

㎏㎜㎝

雙方

ㄠㄨㄩ─┃┆

◆□■△

ぁあぃい

┻╋┠┯┨

꓃꓄꓆꒺꒻

々—~‖……'”

答案1

我不希望英文字符串在排序后一定位于所有其他字符串之前。我宁愿期望字符串首先按语言顺序排序(“david”在“mario”之前),然后按 Unicode 代码点编号(“程序员的排序”,对应于LC_ALL=C或者只需保留在原处(因为其他字符串不是英语)。

man sort我所知,该文件/usr/lib/locale/en_US.UTF-8/LC_COLLATE 应该包含排序顺序,但该文件不在我的系统上,即使它是英文安装。 (/usr/lib/locale/C.UTF-8/LC_COLLATE这是我唯一的整理文件。)

相关内容