apache-spark

问题
apache-spark

问题

问题 我正在尝试在 Hadoop 集群上安装 Spark。我已经安装并测试了 Hadoop。我可以探索 HDFS 并运行 MapReduce 示例。但是,当我尝试安装 Spark 时,我无法运行它,因为它无法启动并出现 EOFException。 系统信息: Rocky Linux 8.8 内核 4.18.0 Hadoop-3.3.6 spark-3.5.0-bin-不带 hadoop 设置: node32.cluster-主节点 node[33-35].cluster-HDFS 和计算节点 笔记 /opt/我有带有 Hadoop 和 Spark ...

Admin

kubernetes 上的 Apache Spark Web UI 未按预期工作
apache-spark

kubernetes 上的 Apache Spark Web UI 未按预期工作

嗨我遇到了一个问题 我正在 kubernetes 上部署 Apache spark helm chart bitnami 图表:helm repo add bitnamihttps://charts.bitnami.com/bitnami 通常,apache spark webui 在端口 8080 上 当我访问 WebUI 时,我得到的结果如下: 我想要获得的是可以使用如下方式管理 Spark 的 UI: 管理 Spark: 我不知道这是否是一个配置问题或者是否需要添加用户界面,我对 spark 不熟悉 希望有人能引导我走向正确的方向 ...

Admin

如何从 S3 存储桶中名为“/”的目录中读取文件?
apache-spark

如何从 S3 存储桶中名为“/”的目录中读取文件?

代码: val df = spark.read.csv("s3a://sample_bucket//csvFiles/file.csv"); 错误:22/06/23 20:02:57 WARN impl.MetricsConfig:无法找到配置:尝试了 hadoop-metrics2-s3a-file-system.properties、hadoop-metrics2.properties org.apache.spark.sql.AnalysisException:路径不存在:s3a://sample_bucket//csvFiles/file.csv;在...

Admin

在生产集群上限制 Spark Cassandra 连接器的读取
apache-spark

在生产集群上限制 Spark Cassandra 连接器的读取

我们目前在生产环境中运行一个 24 节点 Cassandra 集群,该集群可容纳 30TB 的数据,并且每天 24 小时处理平均每分钟 10 万个请求的实时负载。我们支持多个合作伙伴。我们的一个合作伙伴即将离开我们的组织,因此我们必须筛选他们的数据并将其迁移到他们自己的集群中。我们用 Java 编写了 Apache Spark 实用程序来迁移大约 6TB 的数据。 我们在具有 1 个主实例和 3 个从实例(R4.4XLarge EC2 实例)的 Spark 集群上提交了 Spark 作业,但这影响了我们的实时负载,因为我们看到大量写入超时,因此我们不得不停止...

Admin

在 Spark 中导入文件的最快方法?
apache-spark

在 Spark 中导入文件的最快方法?

我正在使用 Spark 3.0.1,Spark SQL 在 GB 数据上的性能给我留下了深刻的印象。 我试图了解在运行分析查询之前在 Spark 数据框中导入多个 JSON 文件的最佳方法是什么。 现在我尝试导入约 1.500 个 .gz 文件,每个文件都包含一个 json 结构文件。这些文件存储在 S3 存储桶中,我有一个数据管道,每隔 x 段时间就会填充这个存储桶。我们说的是 1.500 gz 文件的完整大小为 5GB,未压缩后约为 60/70GB(完整数据集)。 从 S3 导入这些文件需要大约 3 到 4 分钟,而 SQL 查询只需几秒钟。 这里的瓶颈...

Admin

Zstd 拼花地板减压
apache-spark

Zstd 拼花地板减压

我有一个由 zstd 压缩的 parquet 文件。是否可以以某种方式解压缩它?我尝试使用 zstd 命令,但没有任何效果: [x@xyz tmp]# zstd -d part-00016-303a375a-e443-4f86-a59e-b5d82d15bd26.c000.zstd.parquet -o test.parquet zstd: part-00016-303a375a-e443-4f86-a59e-b5d82d15bd26.c000.zstd.parquet: unsupported format ...

Admin

如何在 databricks init 脚本中安装 cosmosdb spark 连接器
apache-spark

如何在 databricks init 脚本中安装 cosmosdb spark 连接器

我尝试安装 cosmosdb spark 连接器(https://docs.microsoft.com/en-us/azure/cosmos-db/spark-connector) 在初始化脚本中的群集上的 Azure Databricks 中,但出现错误和不工作的群集(其中一个 uber 库具有不同的签名)或脚本即使在延迟 20 分钟后也找不到 spark 连接器。但是,当我创建一个交互式群集并将其安装在 Azure 门户上时,相同的库是可安装的并且运行良好。我也尝试将其安装为非 uber 库(每个依赖库都是单独安装的),但脚本看不到 cosmosdb s...

Admin

Spark YARN 容量调度程序
apache-spark

Spark YARN 容量调度程序

我正在尝试在 Amazon EMR 中设置容量调度程序,除了默认队列外还有 2 个队列。我已成功创建队列 user1 和 user2,但是当我使用 spark-submit 在新队列上运行脚本时,它会卡在 ACCEPTED 状态。奇怪的是,我仍然可以将应用程序提交到默认队列,并且一切都按预期运行。 当前使用默认调度程序,但我尝试使用主导调度程序,结果相同。 我查看了日志,它们大部分看起来都还好。有时我会收到一个错误: 2019-12-04 19:18:28,888 WARN org.apache.hadoop.yarn.server.resourcem...

Admin

是否可以在 Hadoop 集群中混合使用不同版本的 RHEL OS?
apache-spark

是否可以在 Hadoop 集群中混合使用不同版本的 RHEL OS?

我们正在使用带有 ambari 的以下 HDP 集群, 节点列表及其 RHEL 版本 3 masters machines ( with namenode & resource manager ) , installed on RHEL 7.2 312 DATA-NODES machines , installed on RHEL 7.2 5 kafka machines , installed on RHEL 7.2 现在我们要将以下机器添加到集群中,但使用 RHEL 7.5 85 DATA-NODES machines , shou...

Admin

与 EXT4 相比,ZFS 在 HDFS 上进行数据流处理有哪些优势?
apache-spark

与 EXT4 相比,ZFS 在 HDFS 上进行数据流处理有哪些优势?

我正在开发一个数据流处理项目,其中我将使用 Apache Flink 和 Apache Spark,并且我想使用 HDFS 进行存储。开发和测试将在具有多个物理磁盘的单节点集群上进行。 我已经检查过了这个问题和本白皮书,但我不确定它是否适用于我的场景,并且仍然对将磁盘用作 HDFS 的单独 EXT4 卷或使用 ZFS 创建一个池感到困惑。 我想知道这两个选项在性能和数据丢失保护方面如何比较,以及推荐的方法是什么。 ...

Admin

在机器集群上打开随机端口
apache-spark

在机器集群上打开随机端口

我正在使用 Java 应用程序 Apache Spark 来创建一个机器集群。启动的进程尝试通过随机端口相互通信。有没有办法编写脚本来打开集群中的随机端口? 这是一个类似的答案,但我想打开一个随机端口,而不是一个范围。我不知道范围是多少,但我想我可以尝试弄清楚。 https://serverfault.com/a/540517/398062 ...

Admin

如何在 Docker 镜像中将 Cassandra 与 Spark 结合使用?
apache-spark

如何在 Docker 镜像中将 Cassandra 与 Spark 结合使用?

(我希望这个问题适合 ServerFault,如果不适合,请评论,我会删除它) 我正在尝试创建一个 docker 镜像,其中将安装并配置 Cassandra 和 Spark 以协同工作。 我从未使用过 Spark(也从未创建过 Dockerfile),只使用过 Cassandra,所以这是新领域。 我使用 Spark、Cassandra 和 Kafka 创建了一个 Dockerfile。现在如何在 Dockerfile 中配置它们以使它们协同工作? Datastax 的 Cassandra-Spark 连接器...我不知道该怎么办。 以下是我的 D...

Admin

无法在 Google DataProc 上运行 Spark 集群
apache-spark

无法在 Google DataProc 上运行 Spark 集群

我在 Google Data Proc 上运行一个 6 节点的 spark 集群,在启动 spark 并执行基本操作的几分钟内,我收到以下错误 OpenJDK 64-Bit Server VM warning: INFO: os::commit_memory(0x00000000fbe00000, 24641536, 0) failed; error='Cannot allocate memory' (errno=12) There is insufficient memory for the Java Runtime Environment to con...

Admin

Spark:Pi 示例在集群模式下抛出 NoSuchFileException
apache-spark

Spark:Pi 示例在集群模式下抛出 NoSuchFileException

我建立了一个 Spark 2.3.1 集群,但是在向其发送示例 SparkPi 作业时遇到了问题: Running Spark using the REST application submission protocol. 2018-09-06 13:45:53 INFO RestSubmissionClient:54 - Submitting a request to launch an application in spark://10.0.15.7:7077. 2018-09-06 13:46:04 WARN RestSubmissionClie...

Admin