一个目录中有多少个文件对于 ext4 来说太多了？

2024-6-20 • tag-icon

我编写了一个 Golang 程序来测量在包含 2k 文件的目录与包含 200k 文件的目录中创建 100 个新文件并读取 100 个现有文件所需的时间：

// Create 200k files in one directory vs 200k files in 100 separate directories
// See if speed of accessing files is affected
package main

import (
    "fmt"
    "log"
    "os"
    "time"

    "github.com/1f604/util"
)

func main() {
    // First, create 100 directories
    filepaths := []string{}
    for i := 0; i < 100; i++ {
        newfilepath := "/tmp/dir" + util.Int64_to_string(int64(i)) + "/"
        filepaths = append(filepaths, newfilepath)
        err := os.MkdirAll(newfilepath, os.ModePerm)
        util.Check_err(err)
    }
    fmt.Println("Created 100 directories.")
    // Next, create 2k files in each directory
    fmt.Println("Now creating 2k x 10kb files in each small directory.")
    for i := 0; i < 100; i++ {
        for j := 0; j < 2000; j++ {
            f, err := os.Create("/tmp/dir" + util.Int64_to_string(int64(i)) + "/" + util.Int64_to_string(int64(j)) + ".txt")
            if err != nil {
                log.Fatal(err)
            }

            if err := f.Truncate(1e4); err != nil {
                log.Fatal(err)
            }
        }
    }

    // Next, create 200k files in one directory
    fmt.Println("Now creating 200k x 10kb files in one big directory.")
    for j := 0; j < 200000; j++ {
        f, err := os.Create("/tmp/bigdir/" + util.Int64_to_string(int64(j)) + ".txt")
        if err != nil {
            log.Fatal(err)
        }

        if err := f.Truncate(1e4); err != nil {
            log.Fatal(err)
        }
    }

    // Now time read and write times
    fmt.Println("Now creating 100 x 10kb files in a small directory.")
    start := time.Now()
    for j := 0; j < 100; j++ {
        f, err := os.Create("/tmp/dir1/test" + util.Int64_to_string(int64(j)) + ".txt")
        if err != nil {
            log.Fatal(err)
        }

        if err := f.Truncate(1e4); err != nil {
            log.Fatal(err)
        }
    }
    fmt.Println("Time taken:", time.Now().Sub(start))

    fmt.Println("Now reading 100 random 10kb files in a small directory.")
    start = time.Now()
    list := [][]byte{}
    for j := 0; j < 100; j++ {
        num, err := util.Crypto_Randint(2000)
        util.Check_err(err)
        contents, err := os.ReadFile("/tmp/dir2/" + util.Int64_to_string(int64(num)) + ".txt")
        if err != nil {
            log.Fatal(err)
        }
        list = append(list, contents)
    }
    fmt.Println("Time taken:", time.Now().Sub(start))

    fmt.Println("Now creating 100 x 10kb files in a big directory.")
    start = time.Now()
    for j := 0; j < 100; j++ {
        f, err := os.Create("/tmp/bigdir/test" + util.Int64_to_string(int64(j)) + ".txt")
        if err != nil {
            log.Fatal(err)
        }

        if err := f.Truncate(1e4); err != nil {
            log.Fatal(err)
        }
    }
    fmt.Println("Time taken:", time.Now().Sub(start))

    fmt.Println("Now reading 100 random 10kb files in a big directory.")
    start = time.Now()
    for j := 0; j < 100; j++ {
        num, err := util.Crypto_Randint(200000)
        util.Check_err(err)
        contents, err := os.ReadFile("/tmp/bigdir/" + util.Int64_to_string(int64(num)) + ".txt")
        if err != nil {
            log.Fatal(err)
        }
        list = append(list, contents)
    }
    fmt.Println("Time taken:", time.Now().Sub(start))

    start = time.Now()
}

以下是我在 Debian 12 (ext4) 系统上的结果：

Created 100 directories.
Now creating 2k x 10kb files in each small directory.
Now creating 200k x 10kb files in one big directory.
Now creating 100 x 10kb files in a small directory.
Time taken: 2.361316ms
Now reading 100 random 10kb files in a small directory.
Time taken: 5.792292ms
Now creating 100 x 10kb files in a big directory.
Time taken: 2.922209ms
Now reading 100 random 10kb files in a big directory.
Time taken: 3.835541ms

从大目录中读取 100 个随机文件始终比从小目录中读取 100 个随机文件快，但这怎么可能呢？

我的基准测试代码不正确吗？

谢谢。

更新：在应用@Paul_Pedant的建议创建文件后刷新页面缓存后，我得到了完全不同的结果！

这是我的新结果：

Now creating 100 x 10kb files in a small directory.
Time taken: 19.475348ms
Now reading 100 random 10kb files in a small directory.
Time taken: 26.309475ms
Now creating 100 x 10kb files in a big directory.
Time taken: 75.570411ms
Now reading 100 random 10kb files in a big directory.
Time taken: 152.495391ms

这表明我之前看到的令人惊讶的结果只是由于页面缓存的影响，从200K文件目录中读取100个随机文件确实比从2K文件目录中读取100个随机文件慢得多（152ms vs 26ms）

更新：我意识到我最初的测试不公平，因为我从同一个小目录访问所有 100 个文件，但在实际场景中我将从随机目录访问它们。

所以我更新了我的基准测试程序以使其更加现实（注意：该程序假设您已经创建了目录和文件。您需要在运行该程序之前刷新页面缓存）：

package main

import (
    "fmt"
    "log"
    "os"
    "time"

    "math/rand"

    "github.com/1f604/util"
)

func main() {
    // Now time read and write times
    fmt.Println("Now creating 100 x 10kb files in a small directory.")
    start := time.Now()
    for j := 0; j < 100; j++ {
        num1 := rand.Intn(100)
        num2 := rand.Intn(2000)
        f, err := os.Create("/tmp/dir" + util.Int64_to_string(int64(num1)) + "/test" + util.Int64_to_string(int64(num2)) + ".txt")
        if err != nil {
            log.Fatal(err)
        }

        if err := f.Truncate(1e5); err != nil {
            log.Fatal(err)
        }
    }
    fmt.Println("Time taken:", time.Now().Sub(start))

    fmt.Println("Now reading 1000 random 10kb files in a small directory.")
    start = time.Now()
    list := [][]byte{}
    for j := 0; j < 1000; j++ {
        num1 := rand.Intn(100)
        num2 := rand.Intn(2000)
        contents, err := os.ReadFile("/tmp/dir" + util.Int64_to_string(int64(num1)) + "/" + util.Int64_to_string(int64(num2)) + ".txt")
        if err != nil {
            log.Fatal(err)
        }
        list = append(list, contents)
    }
    fmt.Println("Time taken:", time.Now().Sub(start))

    fmt.Println("Now creating 100 x 10kb files in a big directory.")
    start = time.Now()
    for j := 0; j < 100; j++ {
        f, err := os.Create("/tmp/bigdir/test" + util.Int64_to_string(int64(j)) + ".txt")
        if err != nil {
            log.Fatal(err)
        }

        if err := f.Truncate(1e5); err != nil {
            log.Fatal(err)
        }
    }
    fmt.Println("Time taken:", time.Now().Sub(start))

    fmt.Println("Now reading 1000 random 10kb files in a big directory.")
    start = time.Now()
    for j := 0; j < 1000; j++ {
        num := rand.Intn(200000)
        contents, err := os.ReadFile("/tmp/bigdir/" + util.Int64_to_string(int64(num)) + ".txt")
        if err != nil {
            log.Fatal(err)
        }
        list = append(list, contents)
    }
    fmt.Println("Time taken:", time.Now().Sub(start))
}

以下是我的新结果：


Now creating 100 x 10kb files in a small directory.
Time taken: 70.31699ms
Now reading 1000 random 10kb files in a small directory.
Time taken: 758.609004ms
Now creating 100 x 10kb files in a big directory.
Time taken: 32.695134ms
Now reading 1000 random 10kb files in a big directory.
Time taken: 574.266544ms

（这些结果是刷新页面缓存后获得的）

现在看来小目录的所有优势都消失了。相反，大目录现在似乎更快。

我认为这表明如果重复访问同一目录那么会使后续文件访问更快？另一种解释是，由于文件非常小 (10kb)，因此它们位于物理设备上的同一块中，因此访问附近的文件速度更快。但我不知道。

答案1

一个目录中有多少个文件对于 ext4 来说太多了？

https://stackoverflow.com/questions/17537471/what-is-the-max-files-per-directory-in-ext4
- 它取决于文件系统创建期间使用的 MKFS 参数。不同的Linux版本有不同的默认值，所以真的无法回答
- 48 位块寻址建议文件的绝对最大数量为 281,474,976,710,656。
- 根据https://www.phoronix.com/news/EXT4-Linux-4.13-Work它是“单个目录中允许大约 1000 万个条目”，但是可以使用 large_dir 功能进行扩展，尽管这存在限制/问题（例如 GRUB 可能无法使用此分区进行引导）； 轶事经验 - 在单个目录中遇到超过 3200 万个文件的问题。
https://access.redhat.com/solutions/29894
- A目录在 ext4 上最多可以有 64000 个子目录
- 如果使用很长的文件名，则块中适合的条目会更少，从而导致“目录索引已满”错误比使用较短文件名时更早出现。
https://docs.kernel.org/admin-guide/ext4.html
- 有关已挂载的 ext4 文件系统的信息可以在 /sys/fs/ext4 中找到

答案1

相关内容