我知道这个问题听起来很愚蠢,至于为什么要将 RAID(廉价磁盘冗余阵列)与 DFS(分布式文件系统)进行比较,我可能会被否决。
首先,我知道 RAID 用于单个系统以提供更好的容错和冗余,并且已经广泛使用了相对较长的时间。另一方面,DFS 就像 Hadoop DFS(请不要误会我的意思,我对 Hadoop 和大数据领域还比较陌生),通过将数据存储在多个集群上来提供冗余,这些集群也被视为商品硬件。
我好奇的是,这两者在性能、使用方面(除了实现方式)有何不同,以及是否可以互换使用(愚蠢的问题)。如果使用类似 RAID 的系统实现 DFS,它会受益还是受损(答案当然是受损,但会受损多少)?
答案1
最大的区别是 RAID 是一种块级技术,而 DFS 是一种文件级技术。除了其他明显的差异之外。
当文件正在使用或锁定时,文件级技术就会出现问题。它也很低效,因为即使只有一个字节发生变化,它通常也需要重新传输整个文件。出于这个原因,DFS 经常会出现复制问题。因为它依赖于 NTFS 日志,如果系统关闭不当,或者自上次复制以来发生了太多更改,DFS 就会被迫重新扫描卷上的每个文件,这可能需要几天的时间。
DFS 是一项古老的技术,专为缓慢、低效的 WAN 连接而设计。替代技术是存储副本拉伸集群。它在块级别工作,不受文件锁定的影响,并且仅同步已更改的块。
话虽如此,这两种技术(DFS 和存储副本)通常都在 RAID 子系统上运行。