我们目前正在使用 EMR 来轻松提交我们的 Spark 作业。最近我遇到了“FSx lustre + S3”解决方案,该解决方案被宣传为 HPC 情况的理想选择。然而,据说 EMRFS 也针对这种特定场景进行了优化,使 S3 看起来像本地 Hadoop 文件系统。
所以我想知道,为什么有人会在成本和性能方面选择这两者中的任何一个?
这个问题可以跟进AWS EMR 使用 AWS S3 时的费用但不幸的是,我没有资格在那里发表评论。
先谢谢您的帮助。
答案1
您正在使用 EMR 进行计算操作并使用 S3 进行存储。
FSX 与 s3 集成时会因为其高 IOPS 而为您的作业提供高吞吐量......这确实对您的执行时间表有帮助......但这同样会带来更高的成本。
https://www.youtube.com/watch?v=ZADHiZa3Hjo&list=WL&index=21&t=2752s
上面提到的是最好的 Reinvent 链接之一