我的公司有一个(相对而言)很大的计算机场,比如说,100 台物理服务器(双 CPU 六核 e5 xeon,配备 160 Gb RAM),按月从某个硬件提供商(比如 Leaseweb 或 OVM)租用,这意味着,我在 1 月 1 日支付所有 100 台服务器在 2 月 1 日至 29 日期间的使用费。
这些服务器为合作伙伴 X、Y、Z 提供服务。合作伙伴根据使用情况向我们公司支付服务器使用费:如果他们停止使用服务器,则无需向我公司支付费用。
假设合作伙伴 X 在 1 月 2 日完全停止使用我们的服务器,而我现在有 30% 的服务器没有收入:我损失了 30% 的投资资金。
假设这种情况:
- 是否存在任何现有的工具集群管理或配置工具可以让我快速将这些系统配置为 HPC 或云计算资源?
- 有哪些现有的调度和资源管理工具可用于允许客户端向上述集群提交计算工作负载?
- 前面提到的资源管理器是否可以与计费或客户帐户管理解决方案快速集成?
答案1
这种事情是可能的,但从逻辑上讲,它可能会涉及几个关于建立基础设施的更具体的问题,这些问题将是特定于实例的。
高性能计算 (HPC) 社区已经尝试过这种做法多次,但大多没有成功。以下是一些可能有助于您取得成功的观察结果
- 您提到的系统低于许多机构的计算要求,这些机构有足够的计算负载,需要专用系统之外的按需资源。
- 如果所有节点之间没有高速互连(我指的是 Infiniband),那么你所描述的 100 个节点集群系统就没有实际的 HPC 用途,100 个 Raspberry Pi 可能对你可能针对的通信密集型现实世界工作负载没有那么有效
- 几乎所有的 HPC、云和高吞吐量计算工作负载(可以使用这种类型的集群)都是数据密集型的,因此你可能需要资源来创建至少一个额外的存储集群,以及备份基础设施、托管其他人数据的策略,以及某种重要的互联网连接,以便客户端通过它上传和下载数据。
- 如果您确实想将这个目标设定为您的硬件擅长的特定工作负载,请找到运行该类型工作负载的潜在客户,看看他们是否愿意使用您的旧/未充分利用的硬件集群。如果您选择这样做,请提前使用客户可能使用的工具和应用程序设置集群;确保所有东西都具有最新的安全补丁和功能以及软件的旧版本。严格测试资源管理器和调度服务并记录如何使用它们,最好使用与实际工作负载类似的基准或测试。以多种格式向客户提供此文档和一些示例工作负载。还要准备好有人随时待命处理您的 SLA 的客户问题。
- HPC 并不容易,请准备好至少聘请一名向导来设置和维护您的集群,预计需要很长时间才能找到人来填补这个职位,并准备好按照那个人说的做