Hadoop Hive、Impala、Pig 等等 — 通过 SQL 访问 Hadoop？

2024-5-30 • tag-icon

看起来 Hive、Impala、Pig 和其他程序都提供了对存储在 Hadoop 集群上的数据的 SQL 或类似 SQL 的访问。它们似乎都支持 HDFS、S3 和其他形式。

那么，为什么有这么多不同的通过 SQL 访问 Hadoop 信息的方式，它们有何不同，以及它们的性能如何？

我们有这么多不同的版本，是因为所有的项目都是出于或多或少相同的原因而同时启动的吗？如果是这样，了解多个版本有什么好处吗？

我发现了几篇文章试图解释这些差异（例如使用 SQL 查询 Hadoop 的 10 种方法和在 Hadoop 上选择正确的 SQL，但他们大多只是列出特点。

相关内容