mapreduce

瘤胃的样本输出或 Gridmix 的输入
mapreduce

瘤胃的样本输出或 Gridmix 的输入

我希望查看 JobHistory 日志,这些日志可以作为输入提供给瘤胃更具体地说,我有兴趣知道网格混合。 我尝试了以下两件事: 1) 我找到了这些文件:。这个文件到底是什么?这是 Rumen 的输出格式吗?与此类似的文件是否足以作为 Gridmix 的输入? 2) 我尝试查看 JobHistory 日志的另一种方法是设置 hadoop 并执行并查看一些日志。但是,我第一次设置 hadoop(Yarn 和 Map Reduce)。所以我对它的设置一无所知。我使用的是 Hadoop Yarn 的 3.0.0 版本。 我正在执行我的死刑伪分布式操作(Job...

Admin

Hadoop FileAlreadyExistsException:输出目录 hdfs://:9000/输入已存在
mapreduce

Hadoop FileAlreadyExistsException:输出目录 hdfs://:9000/输入已存在

我已将 Hadoop 设置为完全分布式模式,包含一个主服务器和三个从服务器。我正在尝试执行一个名为 的 jar 文件,Tasks.jar该文件arg[0]作为输入目录和arg[1]输出目录。 在我的 hadoop 环境中,我在目录中有输入文件,但我的 hadoop 环境中/input没有目录。/output 我使用命令检查了上述hadoop fs -ls /内容 现在,当我尝试使用以下命令执行我的 jar 文件时: hadoop jar Tasks.jar ProgrammingAssigment/Tasks /input /output 我收到...

Admin

使用 Python 3.5 进行 Hadoop 流式传输:java.lang.RuntimeException:PipeMapRed.waitOutputThreads():子进程失败,代码为 127
mapreduce

使用 Python 3.5 进行 Hadoop 流式传输:java.lang.RuntimeException:PipeMapRed.waitOutputThreads():子进程失败,代码为 127

我正在尝试在基于 VMware Workstation VM 构建的集群上使用 Hadoop Streaming 运行我自己的映射器和化简器 Python 脚本。 所有虚拟机上的 Hadoop 版本为 2.7、Python 为 3.5、操作系统为 CentOS 7.2。 我有一台单独的机器,它充当客户端应用程序主机的角色,并将 mapreduce 作业提交给资源管理器。Map 和 Reduce 脚本也存储在那里。我使用以下 hadoop 命令来运行作业: hadoop jar $HADOOP_HOME/share/hadoop/tools/lib/ha...

Admin

无需注销或使用子 shell 即可更新组
mapreduce

无需注销或使用子 shell 即可更新组

我正在尝试在 Elastic MapReduce 流上运行 Docker,但遇到了权限问题。在我的引导脚本中,我需要“hadoop”用户成为“docker”组的一部分(如AWS Docker 基础知识页面): sudo usermod -a -G docker hadoop 但我无法注销或生成子 shell(使用 newgrp)。有没有办法强制组设置在我当前的 shell 会话中生效? ...

Admin

如何查看最近的 AppEngine mapreduce 作业的状态?
mapreduce

如何查看最近的 AppEngine mapreduce 作业的状态?

我们最近将 App Engine 应用程序升级到 GAE SDK 1.9,并将我们一直使用的旧 MapReduce 库升级到托管在 GitHub 上的最新版本。我们现在发现旧的 MapReduce 状态页面 (http://.appspot.com/mapreduce/status) 不显示我们运行的各种日常作业。 当前的 GoogleCloudPlatform MapReduce 文档(https://github.com/GoogleCloudPlatform/appengine-mapreduce/wiki/2.2-Monitoring-a-Job)...

Admin

分发主节点 ssh 密钥
mapreduce

分发主节点 ssh 密钥

为了让主节点无需密码即可 ssh 到从节点,主节点需要将其 ssh 密钥分发给从节点。使用 ssh-copy-id 复制密钥需要输入用户密码。如果系统中有数百个节点,为每个节点手动执行 ssh-copy-id 命令可能不是一个好主意。运行一个 shell 脚本可能是一个好主意,该脚本会反复遍历主机列表并将密钥复制到每个节点中。但这样的脚本需要将密码嵌入到纯文本测试中,以便 ssh-copy-id 继续进行。在脚本中以纯文本形式提供密码是一个好主意吗?或者有解决方法吗? ...

Admin

bin/ 和 libexec/ 中的 hadoop-config.sh
mapreduce

bin/ 和 libexec/ 中的 hadoop-config.sh

在设置 hadoop 时,我发现 hadoop-config.sh 脚本存在于两个目录中,bin/ 和 libexec/。这两个文件是相同的。在查看脚本时,我发现如果 hadoop-config.sh 存在于 libexec 中,则会执行它。如果没有,则调用 bin/ 下的脚本。将同一个文件保存在两个目录中的目的是什么? ...

Admin

MongoDB 锁定 - 读取速度非常非常慢
mapreduce

MongoDB 锁定 - 读取速度非常非常慢

这是 db.currentOp() 的输出: > db.currentOp() { "inprog" : [ { "opid" : 2153, "active" : false, "op" : "update", "ns" : "", "query" : { "name" : "Run_KPIS", "profile" : "totals" ...

Admin

在单节点环境中,5 个 Reducer 中有 1 个完成后,MapReduce 作业挂起
mapreduce

在单节点环境中,5 个 Reducer 中有 1 个完成后,MapReduce 作业挂起

我在 EC2 上的开发环境中只有一个数据节点。我运行了繁重的 MR 作业,并在 6 小时内注意到 100% 的映射器和 20% 的减速器已完成(其中一个减速器显示 100% 竞争,其他减速器显示 - 0%)。看起来作业在 2 个减速器运行之间挂起。我在日志文件中没有看到任何错误。 它会是什么? PS 成功完成的减速器的最后日志: 2012-11-09 11:29:21,576 INFO org.apache.hadoop.mapred.Task: Task:attempt_201211090523_0004_r_000000_0 is done. An...

Admin

如何提高 Amazon Elastic Mapreduce 执行作业的性能?
mapreduce

如何提高 Amazon Elastic Mapreduce 执行作业的性能?

我的任务是: 最初,我想使用 SQOOP 将数据从 MS SQL Server 导入 HDFS。 通过 Hive 我处理数据并在一个表中生成结果 包含来自 Hive 的表的结果再次被导出到 MS SQL SERVER。 所有这些事情我都必须借助 Amazon Services 来实现。(就我而言,我使用 Amazon S3 来存储数据,并使用 Amazon Elastic Map Reduce。) 实际上,我从 MS SQL Server 导入的数据非常大(一个表中大约有 5,000,000 个条目。同样,我有 30 个表)。为此,我在 Hive ...

Admin

管理(Hadoop)集群的最佳实践
mapreduce

管理(Hadoop)集群的最佳实践

我最近一直在玩 Hadoop。我有一个六节点集群正在运行 - 使用 HDFS,并且已经运行了许多 MapRed 作业。到目前为止,一切顺利。但是,我现在希望更系统地使用更多节点来执行此操作。我们的基础系统是 Ubuntu,当前设置已使用 apt(安装正确的 java 运行时)和 ssh/scp(传播各种 conf 文件)进行管理。这显然无法随着时间的推移进行扩展。 有没有人有使用良好系统自动管理(可能略有不同:磁盘大小不同,每个节点上的 CPU 数量不同)Hadoop 集群的经验?我会考虑无盘启动 - 但想象一下,对于大型集群,启动和运行集群可能会在为操作...

Admin

Hadoop 滚动小文件
mapreduce

Hadoop 滚动小文件

我在一个项目上运行 Hadoop 并且需要一个建议。 通常,默认情况下,Hadoop 的“块大小”约为 64mb。 还有建议不要使用太多/小文件。 由于 flume 的应用程序设计,我目前将非常非常小的文件放入 HDFS。 问题是,Hadoop <= 0.20 无法附加到文件,因此我的 map-reduce 有太多文件无法有效运行。 一定有一个正确的方法可以将大约 100 个文件简单地合并为一个。 因此,Hadoop 实际上是在读取 1 个大文件,而不是 10 个 有什么建议么?? ...

Admin