看起来 Hive、Impala、Pig 和其他程序都提供了对存储在 Hadoop 集群上的数据的 SQL 或类似 SQL 的访问。它们似乎都支持 HDFS、S3 和其他形式。
那么,为什么有这么多不同的通过 SQL 访问 Hadoop 信息的方式,它们有何不同,以及它们的性能如何?
我们有这么多不同的版本,是因为所有的项目都是出于或多或少相同的原因而同时启动的吗?如果是这样,了解多个版本有什么好处吗?
我发现了几篇文章试图解释这些差异(例如使用 SQL 查询 Hadoop 的 10 种方法和在 Hadoop 上选择正确的 SQL,但他们大多只是列出特点。