为什么按名称删除文件速度慢得令人痛苦，但速度却异常快？

Question 1

rm -r 预计会因为递归而变慢。必须对目录结构进行深度优先遍历。

那么你是如何创建 1000 万个文件的呢？你是否使用了一些按某种顺序循环的脚本？ 1.txt,2.txt,3.txt...如果是，那么这些文件也可能以相同的顺序分配在 hdd 中的连续块中。因此按相同的顺序删除会更快。

“ls -f”将启用 -aU，它按目录顺序列出，这又是递归的。

Answer

rm -r 预计会因为递归而变慢。必须对目录结构进行深度优先遍历。

那么你是如何创建 1000 万个文件的呢？你是否使用了一些按某种顺序循环的脚本？ 1.txt,2.txt,3.txt...如果是，那么这些文件也可能以相同的顺序分配在 hdd 中的连续块中。因此按相同的顺序删除会更快。

“ls -f”将启用 -aU，它按目录顺序列出，这又是递归的。

Question 2

您应该优化文件结构。所以而不是

for i in $(seq 1 1000); do touch file.$i; done

做一些更聪明的事情，比如（bash 假设）：

function bucklocate() 
{ 
    hash=$(echo -n "$1"|md5sum|cut -f1); 
    echo -n "${hash:1:1}/${hash:7:1}/${hash:9:2}/$1"; 
}

hexdig="{0,1,2,3,4,5,6,7,8,9,a,b,c,d,e,f}"
eval mkdir -p $hexdig/$hexdig/$hexdig$hexdig


for i in $(seq 1 1000); do touch $(bucklocate file.$i); done

现在这个例子相当慢，因为使用了 md5sum[1]，使用类似下面的东西可以更快地响应，只要你不需要任何特定的文件名，重复就不用担心，也不需要某个名称的可重复哈希:)

mkdir -pv {0,1,2,3,4,5,6}/{0,1,2,3,4,5,6,7,8,9,10,12}
for  a in $(seq 1 100); do i=$RANDOM; echo touch "$(($i%7))/$(($i%13))/file.$i"; done

当然，这都是草率地借用哈希表的概念

Answer

您应该优化文件结构。所以而不是

for i in $(seq 1 1000); do touch file.$i; done

做一些更聪明的事情，比如（bash 假设）：

function bucklocate() 
{ 
    hash=$(echo -n "$1"|md5sum|cut -f1); 
    echo -n "${hash:1:1}/${hash:7:1}/${hash:9:2}/$1"; 
}

hexdig="{0,1,2,3,4,5,6,7,8,9,a,b,c,d,e,f}"
eval mkdir -p $hexdig/$hexdig/$hexdig$hexdig


for i in $(seq 1 1000); do touch $(bucklocate file.$i); done

现在这个例子相当慢，因为使用了 md5sum[1]，使用类似下面的东西可以更快地响应，只要你不需要任何特定的文件名，重复就不用担心，也不需要某个名称的可重复哈希:)

mkdir -pv {0,1,2,3,4,5,6}/{0,1,2,3,4,5,6,7,8,9,10,12}
for  a in $(seq 1 100); do i=$RANDOM; echo touch "$(($i%7))/$(($i%13))/file.$i"; done

当然，这都是草率地借用哈希表的概念

为什么按名称删除文件速度慢得令人痛苦，但速度却异常快？

答案1

答案2

相关内容