访问速度是否取决于网络共享上的文件数量?

访问速度是否取决于网络共享上的文件数量?

在我们的办公室,我们使用 SSD 的 RAID5 作为 Linux 服务器上的网络共享。此共享可作为网络驱动器从 Windows PC 和 Mac 访问。有时,此网络共享的访问时间和传输速度会变得非常慢。

我不是管理员,因此不完全了解该系统。

其中一位管理员现在提出,这可能与网络共享上存储的文件数量有关。有些文件夹包含数百万个几 kB 的文件。

访问速度是否取决于网络共享上的文件数量?

答案1

这并不是驱动器上的文件数量,而是给定文件夹中的文件数量。

每次有人访问文件夹时,必须读取内容才能显示文件列表。这也与文件大小无关;只需要获取标题、创建/修改日期和其他可见的信息。
如果使用缩略图,图标缓存也可能受到严重影响。

将这些巨大的文件夹分成子集可能正是结构所需要的。

答案2

  1. 速度清单文件显然取决于要列出的文件的数量。

  2. 速度开幕特定文件(即开始检索)取决于文件的数量。

    根据服务器上使用的文件系统(例如 NTFS、XFS、ext4、ZFS),它将使用不同的数据结构来存储每个目录中的文件列表 - 其中一些数据结构在处理海量列表方面明显优于其他数据结构(例如 B 树、哈希表和线性列表)。

    每次打开(或以其他方式接触)新文件时,服务器都需要在该目录中找到它,这可能需要一些时间。(特别是如果目录列表未缓存在内存中并且需要从 HDD 读取。)

    对于数百万个文件,您绝对应该考虑将它们分片到子目录中,例如基于文件名的前几个字母(类似于您在.git/objects/Git 存储库中看到的)。

  3. 速度转让文件的内容(不包括打开文件所需的时间)没有完全取决于该目录中的文件数量。

    这确实取决于磁盘需要寻道多少(如果它们是机械的),这对于许多小文件来说尤其糟糕。

如果你要传输数千个小文件,我想大部分时间都会花在——如果服务器使用 HDD——物理上寻找 HDD 磁头在一个小文件和另一个小文件之间、在一个元数据条目和另一个元数据条目之间来回移动。

答案3

您没有说明服务器是 Windows 还是 Linux,但至少在基于 Linux 的文件系统中,大型目录肯定很慢。如果您在一个目录中创建数百万个文件,目录索引就会增长。如果您这样做,您实际上可以看到这一点ls -lhd <dir>。而且目录只会增长;它们不会变小。

我管理着一个处理许多队列文件的系统,为了避免因此导致系统速度变慢,我做了两件事:

  • 将数百万个文件拆分到各个子目录中。这是一种非常常见的做法。例如,如果您查看 Postfix SMTP 服务器,您会看到队列目录根据首字母细分为子目录(这可以使用哈希或任何您想要的算法来完成)。
  • 偶尔重新创建所有子目录。有些事件甚至会导致这些子目录增长,一旦目录大小达到几十或几百兆(不是内容(仅目录索引)会减慢对其的所有访问速度。

因此,避免在一个目录中放置数百万个文件并将它们放在子目录中。

当您谈论分布在许多子目录中的数百万个文件时,这不应该成为一个因素。

答案4

可能的瓶颈是网络接口。

这个问题的答案是“视情况而定”。这取决于操作系统、文件系统、文件共享协议、RAM、SSD 接口、是否使用静态加密以及如何使用、RAID 控制器等。

驱动器上的文件数量可能会影响性能 - 但这可能只是在偶尔读取文件和/或服务器内存非常受限时才会成为问题 - 文件系统指针通常保存在内存中,并且由于磁盘是 SSD,“寻道时间”不是问题。

也可能是一个或多个 SSD 即将达到使用寿命,或者无法正确处理 TRIM,在这种情况下,它可能会大大减慢读取速度,特别是写入速度,并可能不成比例地影响对其他磁盘的访问,因为数据被分散到所有磁盘上。

相关内容