大数据 + 什么是正确的文件系统 ext4 或 xfs?

大数据 + 什么是正确的文件系统 ext4 或 xfs?

我们有 Linux Redhat 版本 7.2,带有 xfs 文件系统。

from /etc/fstab

/dev/mapper/vgCLU_HDP-root /                       xfs     defaults        0 0
UUID=7de1ab5c-b605-4b6f-bdf1-f1e8658fb9 /boot                   xfs     defaults        0 0
/dev/mapper/vg
/dev/mapper/vgCLU_HDP-root /                       xfs     defaults        0 0
UUID=7de1dc5c-b605-4a6f-bdf1-f1e869f6ffb9 /boot                   xfs     defaults        0 0
/dev/mapper/vgCLU_HDP-var /var                    xfs     defaults        0 0 var /var                    xfs     defaults        0 0

这些机器用于 hadoop 集群。

我只是想为此目的最好的文件系统是什么?

那么对于用于hadoop集群的机器来说,EXT4和XFS哪个更好呢?

答案1

这是在这篇知识库文章;您主要考虑的是可用的支持级别:Ext4 最高支持 50TB,XFS 最高支持 500TB。对于真正的大数据,您可能最终会考虑共享存储,默认情况下这意味着 RHEL 7 上的 GFS2,但对于 Hadoop,您将使用 HDFS 或 GlusterFS。

对于 RHEL 上的本地存储,默认为 XFS,您通常应该使用它,除非您有特定原因不这样做。

答案2

XFS 是一个令人惊叹的文件系统,尤其是对于大文件。如果您的负载涉及大量小文件,定期清理碎片可能会提高性能。我不担心这一点,并使用 XFS 来处理所有负载。它得到了很好的支持,所以没有理由不使用它。

如果您想找出最适合您的典型工作负载的系统,请预留一台机器和磁盘用于您自己测试各种文件系统。在整个磁盘上分步进行测试负载可以告诉您有关正在测试的文件系统如何工作的信息。

测试机器上的负载是确定的唯一方法。

相关内容