为什么 Hadoop 和 Spark 不在官方 Ubuntu 存储库中?

为什么 Hadoop 和 Spark 不在官方 Ubuntu 存储库中?

更新(2021-11-13 22:12 GMT+8):关于 Snap 软件包,@karel 建议这个问题与为什么 Ubuntu 存储库没有最新版本的软件?我不同意,因为 (1) Snaps 是自限制的且与其所有依赖项捆绑在一起,与 deb 包不同,我希望前者能够更紧密地跟进上游,(2) 即使不是,我也希望它们现在已经稳定了。


我看到这个问题已经在Hadoop 和 Spark - 为什么没有 Ubuntu 软件包?但是 (1) 那是 2015 年的事了,从那时起计算领域发生了很大变化,并且 (2) 对另一个问题的唯一回答并没有真正回答它,所以我认为再次提问是合适的。

因此,与 2015 年相比,现在 2021 年的云计算和大数据变得更加普遍。考虑到 Linux 的主要用例之一是云计算/大数据,为什么设置 Hadoop 和 Spark(与大数据处理相关的关键框架)的实际方式仍然是从上游下载和解压档案,而不是简单地通过运行适当的命令从官方 Ubuntu 存储库中获取适当的二进制包apt install?除非我遗漏了什么,否则我可以想象,为 Ubuntu 预先打包这些常用的框架将为广大用户群带来许多切实的好处,例如(但不限于):

  • 改善与主机系统的集成
  • 减少手动设置和配置需求

PS 考虑到 Canonical 近年来大力推广 Snap,我也检查了 Snap 商店,虽然它们看起来是打包的(Hadoop火花),最后一次努力是在 2017 年,并且仅在不稳定的 beta / edge 渠道中可用。

答案1

Hadoop 和 Spark 几年前就从 Debian 中被删除了,主要是因为缺乏志愿者来维护这些软件包。Ubuntu 的大部分 deb 软件包都来自 Debian,因此它们也从 Ubuntu 中被删除了。

任何社区志愿者愿意了解流程并贡献力量可以将软件包重新引入 Debian,随后它们将流入 Ubuntu 的未来版本。更多的志愿者 = 更多、更好、最新的软件。

此外,根据https://wiki.debian.org/Hadoop此外,Hadoop 开发人员并没有让 Debian 志愿者轻松地进行 deb 的打包和维护:

造成这种情况的原因有很多;特别是 Hadoop 构建过程将通过 Maven 加载各种依赖项,而不是使用发行版提供的包。不幸的是,像这样的 Java 项目由于相互依赖而不容易打包;不幸的是,Hadoop 堆栈充满了奇怪的依赖项

如果这些信息过时或不正确,那么社区志愿者将再次站出来,进行更正并实施变更。Debian 和 Ubuntu 是由志愿者推动的。志愿者越多 = 文档越好。

相关内容