分布式处理/分布式存储系统的建议

Question

听起来你已经基本了解了你需要的东西。现有的技术（GlusterFS、GPFS）具有你正在寻找的功能，但没有数据本地性功能。根据你对数据的处理方式，这可以内置到你的作业调度程序中。

在我看来，您需要在处理管道中构建一个索引阶段来确定数据局部性。这可以并行化，然后在数据库中重新序列化，尽管这一步可能是自定义代码（您比我更了解您的数据）。一旦有了数据局部性，打包工作节点的处理工作单元应该相当简单；首先为节点本地数据构建工作单元，然后为节点相邻数据构建工作单元（如果该概念适用于您的情况），最后在大多数处理完成但一些工作单元似乎需要很长时间并且它们的节点本地处理器正在忙于处理它们时使用全局上下文。

这是高层次的观点。更关注问题的本质。从你目前所说的来看，听起来你正在处理更大的数据块，并且出于带宽原因，你希望在本地存储上进行处理。我看到了一些选择：

第一个想法是，当数据从源中提取时，它会被复制到 Gluster/GPFS/任何分布式文件系统中。然后，运行我上面描述的索引过程。然后，当工作者处理数据时，处理后的数据集会报告给另一组服务器，该组服务器的作用是通过 HTTP 提供处理后的数据。报告方法甚至可以通过 HTTP PUT 完成，然后将数据放入另一个复制的文件系统。这种方法的缺点是它会存储两次数据（原始数据和修改后的数据），但我不知道你是否已经这样做了。这允许你将处理基础设施扩展到相当远的地方，同时保持你的客户端服务基础设施相当小。

第二种想法，如上所述，但当工作者完成工作单元的处理时，保存的数据将存储到 Gluster/GPFS/任何文件系统中。HTTP 服务器然后直接从这些存储库提供数据，但它们并不像处理节点那样关心节点本地。为此，最好有单独的客户端服务和处理网络来限制这些大型数据集的双重传输问题。

第三个想法，如果搞清楚 GPFS/Gluster 的数据局部性并不可行（我没有使用过它们，所以我不确定），您可能需要研究构建自己的存储类型。这需要大量工作，但如果您真的需要局部性，那么这对您来说可能是值得的。当您获取数据时，每个数据集都会在数据库中建立索引，并根据需要通过 HTTP PUT 发送到多个节点。在处理时，会为各个节点创建作业，这些作业首先针对它们自身的节点本地数据。当工作者收到作业时，它会从数据库指定的节点（应该是它自己，但不一定是）HTTP GET 数据。当工作完成后，它会通知数据库并接收有关将结果放在何处的指令。

为了向客户端提供处理过的数据集，您可能必须引入一些应用程序代码来转换文件以便从您的节点获取代理的 HTTP GET。

这确实以数据库的形式引入了高带宽部分。它可以在它前面有多个负载平衡的 Web 服务器来处理逻辑，但数据库本身最终会成为单点故障（尽管更了解数据库的人可能知道如何解决这个问题）。数据库本质上充当大型基于 HTTP 的文件系统的文件分配表。由于您的处理似乎需要非常简单的文件系统语义（获取/放置，可能锁定/解锁正在处理数据集的节点），可以通过这样的数据库进行调解。显然，这个数据库将非常大，因此出于性能原因，某些 NoSQL 技术可能更适合。

我知道这不是你正在寻找的特定技术，更多的是关于解决市场缺陷的技术。数据局部性和复制似乎是一种极端情况。碰巧的是，我们用较小的数据集做了类似的事情，所以这也是我考虑的一个话题。

Answer 1