HDFS 中的“流数据访问”是什么意思？

Question 1

流式传输只是意味着它可以在传输数据时为您提供高于某个阈值的恒定比特率，而不是让数据以突发或波浪的形式传入。

如果 HDFS 是为流式传输而设计的，它可能仍将支持寻道，但需要一些开销来缓存恒定流的数据。

当然，根据系统和网络负载，您的搜索可能会花费更长时间。

Answer

流式传输只是意味着它可以在传输数据时为您提供高于某个阈值的恒定比特率，而不是让数据以突发或波浪的形式传入。

如果 HDFS 是为流式传输而设计的，它可能仍将支持寻道，但需要一些开销来缓存恒定流的数据。

当然，根据系统和网络负载，您的搜索可能会花费更长时间。

Question 2

HDFS 以大块（例如 64 MB）存储数据。其理念是让数据按顺序排列在硬盘上，从而减少硬盘读取数据所需的寻道次数。

此外，HDFS 是一个用户空间文件系统，因此有一个中央名称节点，其中包含一个内存目录，其中存储了集群中的所有块（及其副本）。文件预计很大（例如 1 GB 或更大），并被分成几个块。为了读取文件，代码会向名称节点请求一个块列表，然后按顺序读取这些块。

通过保持驱动器对这些大型数据块所能承受的最大 I/O 速率，数据可以从硬盘驱动器“流出”。

Answer

HDFS 以大块（例如 64 MB）存储数据。其理念是让数据按顺序排列在硬盘上，从而减少硬盘读取数据所需的寻道次数。

此外，HDFS 是一个用户空间文件系统，因此有一个中央名称节点，其中包含一个内存目录，其中存储了集群中的所有块（及其副本）。文件预计很大（例如 1 GB 或更大），并被分成几个块。为了读取文件，代码会向名称节点请求一个块列表，然后按顺序读取这些块。

通过保持驱动器对这些大型数据块所能承受的最大 I/O 速率，数据可以从硬盘驱动器“流出”。

Question 3

对于来自Hadoop：权威指南，第三版：

HDFS 的构建理念是，最高效的数据处理模式是一次写入、多次读取。数据集通常是从源生成或复制的，然后随着时间的推移对该数据集执行各种分析。每次分析都会涉及大部分（如果不是全部）数据集，因此读取整个数据集的时间比读取第一条记录的延迟更重要。

Answer

对于来自Hadoop：权威指南，第三版：

HDFS 的构建理念是，最高效的数据处理模式是一次写入、多次读取。数据集通常是从源生成或复制的，然后随着时间的推移对该数据集执行各种分析。每次分析都会涉及大部分（如果不是全部）数据集，因此读取整个数据集的时间比读取第一条记录的延迟更重要。

相关内容