与 EXT4 相比,ZFS 在 HDFS 上进行数据流处理有哪些优势?

与 EXT4 相比,ZFS 在 HDFS 上进行数据流处理有哪些优势?

我正在开发一个数据流处理项目,其中我将使用 Apache Flink 和 Apache Spark,并且我想使用 HDFS 进行存储。开发和测试将在具有多个物理磁盘的单节点集群上进行。

我已经检查过了这个问题本白皮书,但我不确定它是否适用于我的场景,并且仍然对将磁盘用作 HDFS 的单独 EXT4 卷或使用 ZFS 创建一个池感到困惑。

我想知道这两个选项在性能和数据丢失保护方面如何比较,以及推荐的方法是什么。

相关内容