Unix 排序键导致性能问题

Question 1

我不知道它的sort内部工作原理，也没有 71 MB 的.csv文件可以测试它，但您可以尝试以下几件事：

--buffer-size将（）设置-S为足够大的值以避免多次从硬盘读取。

从...开始-S=1G，然后逐步向下。
逐个排除键以查看是否有特定的键导致问题（例如整数）。

例子：
- -k1,1 -k2,2 -k3,3 -k4,4 -k5,5
- -k1,1 -k2,2 -k3,3 -k4,4 -k6,6
除非这对于整数来说是不可接受的，否则设置--dictionary-order（-d）开关。

Answer

我不知道它的sort内部工作原理，也没有 71 MB 的.csv文件可以测试它，但您可以尝试以下几件事：

--buffer-size将（）设置-S为足够大的值以避免多次从硬盘读取。

从...开始-S=1G，然后逐步向下。
逐个排除键以查看是否有特定的键导致问题（例如整数）。

例子：
- -k1,1 -k2,2 -k3,3 -k4,4 -k5,5
- -k1,1 -k2,2 -k3,3 -k4,4 -k6,6
除非这对于整数来说是不可接受的，否则设置--dictionary-order（-d）开关。

Question 2

指定多个键需要先按第一个键对数据进行排序，然后按第二个键对具有相同第一个键的项目进行排序，依此类推。这会在 RAM 中移动大量数据。如果任何数据被分页，算法将从受内存访问时间（以纳秒为单位）限制变为受磁盘访问时间（以毫秒为单位）限制。

Answer

指定多个键需要先按第一个键对数据进行排序，然后按第二个键对具有相同第一个键的项目进行排序，依此类推。这会在 RAM 中移动大量数据。如果任何数据被分页，算法将从受内存访问时间（以纳秒为单位）限制变为受磁盘访问时间（以毫秒为单位）限制。

Question 3

我正好遇到了这个问题，在快速浏览了 sort.c 源代码后，我注意到，如果键不是连续地位于字符串的开头，则在字符串中搜索键的部分是纯字符串搜索（直到分隔符）。考虑到排序是一个 (log n) 操作，在比较两行时，这种在一行中搜索键的方式可能会重复多次，每次将一行与另一行进行比较。

因此，我结合使用了 awk（连续添加键）、sort（在前 x 个字段上）和 cut（删除添加的键）来连续添加排序键，并在作业完成后删除它们。对于我的用例来说，效率提高了 3 倍。

Answer

我正好遇到了这个问题，在快速浏览了 sort.c 源代码后，我注意到，如果键不是连续地位于字符串的开头，则在字符串中搜索键的部分是纯字符串搜索（直到分隔符）。考虑到排序是一个 (log n) 操作，在比较两行时，这种在一行中搜索键的方式可能会重复多次，每次将一行与另一行进行比较。

因此，我结合使用了 awk（连续添加键）、sort（在前 x 个字段上）和 cut（删除添加的键）来连续添加排序键，并在作业完成后删除它们。对于我的用例来说，效率提高了 3 倍。

相关内容