amazon-emr

无法使用 PuTTY 连接到 Amazon EMR 集群
amazon-emr

无法使用 PuTTY 连接到 Amazon EMR 集群

我创建了具有标准配置的 EMR 集群。 然后,我允许相应安全组在端口 22 上进行入站 SSH 流量。我添加了以下规则: 然后我按照说明进行操作: 但我收到了错误: 服务器拒绝我们的密钥 我没能在这里找到答案https://aws.amazon.com/premiumsupport/knowledge-center/ec2-server-refused-our-key/。 我尝试从另一个工作站(Windows 7)进行连接。这里我收到另一个错误: 我创建了 EC2 实例,并成功使用 EC2 Connect 连接到该实例。但是当我尝试使用 SSH ...

Admin

在 Spark 2.4 中从 Amazon redshift 读取数据
amazon-emr

在 Spark 2.4 中从 Amazon redshift 读取数据

我们曾经使用 databricks 在 Spark 2.3 中读取数据,并使用以下代码段 Spark-Shell 初始化: spark-shell --jars RedshiftJDBC42-1.2.10.1009.jar --packages com.databricks:spark-redshift_2.11:3.0.0-preview1,com.databricks:spark-avro_2.11:3.2.0 进而 val url = "jdbc:redshift://cluster-link?user=username&passwor...

Admin

如何在 pyspark 中读取大型 zip 文件
amazon-emr

如何在 pyspark 中读取大型 zip 文件

我在 s3 上确实有 n 个 .zip 文件,我想处理它们并从中提取一些数据。zip 文件包含一个 json 文件。在 spar 中我们可以读取 .gz 文件,但我找不到任何方法来读取 .zip 文件中的数据。有人能帮我解决如何使用 python 通过 spark 处理大型 zip 文件吗?我遇到了一些选项,比如 newAPIHadoopFile,但没有成功,也没有找到在 pyspark 中实现它们的方法。请注意,zip 文件大于 1G,有些甚至达到 20G。 ...

Admin

如何通过快照 ID 将 EBS 卷添加到 Amazon EMR
amazon-emr

如何通过快照 ID 将 EBS 卷添加到 Amazon EMR

我们在 EBS 卷上有大量数据。我熟悉如何将卷附加到新EC2集群。 但是这是怎么做到的EMR呢?下面是添加存储对话框:请注意,没有用于指定的条目EBS Snapshot ID: ...

Admin

我的 emr 集群在状态设置为启动后因错误而终止
amazon-emr

我的 emr 集群在状态设置为启动后因错误而终止

您好,当我创建 EMR 集群时。状态显示正在创建,但 58 分钟后出现错误提示Master - 1: Error provisioning instances。错误信息(附有错误截图)我尝试了多次,但都失败了。 我正在遵循 AWS 文档,了解如何创建 EMR 集群 https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-gs.html 在 AWS 上创建 EMR 集群(图片来自所附文件) 我哪里做错了?我想成功创建 EMR 集群并将 Jupiter 笔记本附加到集群。有没有文档可以成功创建集群并...

Admin

带有和不带有 EMR 和 Spark 的 AWS EC2 不会通过 SSH 连接到端口 22
amazon-emr

带有和不带有 EMR 和 Spark 的 AWS EC2 不会通过 SSH 连接到端口 22

我在 MacBookPro 上。我尝试使用 EMR、Rstudio 和 Spark 启动 EC2 实例。我遇到了端口 22 超时问题。我向 AWS 寻求帮助,关闭了防火墙并重启了调制解调器。但仍然没有任何反应,只是端口 22 超时。 AWS 设法让一个 EC2 实例运行起来。然后是另一个。但是,我无法在端口 22 上进行 ssh。我更改了 vpc、子网、安全组等。Amazon 验证了它们是正确的。我允许 IPv4 上的所有流量。但是,我无法通过 SSH 端口 22 进行连接。我卸载并启动了 plist。我检查了 nano 中的另一个文件,该文件明确指出端口 ...

Admin

在 AWS EMR 中安装软件包
amazon-emr

在 AWS EMR 中安装软件包

我正在尝试安装谷歌Tink在 AWS EMR 5.28.0 中没有太多运气。看起来 AWS EMR 映像本质上相当奇怪。有什么想法吗? sc.install_pypi_package("tink") 错误:找不到 bazel 可执行文件。请安装 bazel 来编译 Tink Python 包。 sudo yum install -y bazel3 需要:java-11-openjdk-devel sudo yum install java-11-openjdk-devel 没有可用的包 java-11-openjdk-devel。 sudo yum...

Admin

在 Spark 中导入文件的最快方法?
amazon-emr

在 Spark 中导入文件的最快方法?

我正在使用 Spark 3.0.1,Spark SQL 在 GB 数据上的性能给我留下了深刻的印象。 我试图了解在运行分析查询之前在 Spark 数据框中导入多个 JSON 文件的最佳方法是什么。 现在我尝试导入约 1.500 个 .gz 文件,每个文件都包含一个 json 结构文件。这些文件存储在 S3 存储桶中,我有一个数据管道,每隔 x 段时间就会填充这个存储桶。我们说的是 1.500 gz 文件的完整大小为 5GB,未压缩后约为 60/70GB(完整数据集)。 从 S3 导入这些文件需要大约 3 到 4 分钟,而 SQL 查询只需几秒钟。 这里的瓶颈...

Admin

AWS FSx for Lustre 与 S3 对比 EMR(使用 EMRFS)用于 Spark 作业
amazon-emr

AWS FSx for Lustre 与 S3 对比 EMR(使用 EMRFS)用于 Spark 作业

我们目前正在使用 EMR 来轻松提交我们的 Spark 作业。最近我遇到了“FSx lustre + S3”解决方案,该解决方案被宣传为 HPC 情况的理想选择。然而,据说 EMRFS 也针对这种特定场景进行了优化,使 S3 看起来像本地 Hadoop 文件系统。 所以我想知道,为什么有人会在成本和性能方面选择这两者中的任何一个? 这个问题可以跟进AWS EMR 使用 AWS S3 时的费用但不幸的是,我没有资格在那里发表评论。 先谢谢您的帮助。 ...

Admin

Spark YARN 容量调度程序
amazon-emr

Spark YARN 容量调度程序

我正在尝试在 Amazon EMR 中设置容量调度程序,除了默认队列外还有 2 个队列。我已成功创建队列 user1 和 user2,但是当我使用 spark-submit 在新队列上运行脚本时,它会卡在 ACCEPTED 状态。奇怪的是,我仍然可以将应用程序提交到默认队列,并且一切都按预期运行。 当前使用默认调度程序,但我尝试使用主导调度程序,结果相同。 我查看了日志,它们大部分看起来都还好。有时我会收到一个错误: 2019-12-04 19:18:28,888 WARN org.apache.hadoop.yarn.server.resourcem...

Admin

Linux 上的 psql 安装需要 systemd
amazon-emr

Linux 上的 psql 安装需要 systemd

我正在我的 AWS EMR(EC2 实例)上安装 psql,它是 Amazon Linux(不是 Amazon Linux 2)。 运行命令后出现错误 sudo yum install -y postgresql10 Error: Package: postgresql10-10.7-2PGDG.rhel7.x86_64 (pgdg10) Requires: systemd Amazon Linux 2 附带 systemd,但 AWS EMR 不支持 Amazon Linux 2。 如何在 AWS EMR 上安装 psql...

Admin

AWS EMR 使用 AWS S3 时的费用
amazon-emr

AWS EMR 使用 AWS S3 时的费用

当我运行 AWS EMR 集群并且它从 AWS S3 存储桶(或多个存储桶)读取和写入时,该数据传输的成本是多少? 这是数据传输吗? 免费,因为它是内部的,在 AWS 云中? 正常的 S3 成本与请求数量有关吗?[*] 折扣成本或类似的东西? [*] 请不要谈论空间S3 的成本,这些基本上与我的 EMR 集群使用情况无关,因为集群从不将“中间”数据写入 S3,只读取输入和写入结果。 ...

Admin