hdfs

在 Cloudera Hadoop 4(CDH4)中设置权限
hdfs

在 Cloudera Hadoop 4(CDH4)中设置权限

我想要在CDH4中设置HDFS权限,要求如下: 每个人都可以读取所有 HDFS 目录中的所有内容 每个用户只能写入 HDFS 上的其用户目录 除非是可以在任何地方写入的特殊用户 这是要求的简化版本,但这是一个好的开始。 问题是 - 我该如何配置它?我必须设置 Kerberos 吗?Cloudera 安全指南仅讨论 Kerberos,但我认为目前我不需要强大的身份验证方案。 由于我是 Hadoop 新手,因此循序渐进的指南确实很有帮助。 ...

Admin

Hadoop + 警告:数据节点机器的块接收速度很慢
hdfs

Hadoop + 警告:数据节点机器的块接收速度很慢

我们有一个带有487数据节点机器的 Hadoop 集群(每个数据节点机器还包括服务节点管理器),所有机器都是物理机器( DELL ),操作系统是 RHEL 7.9 版本。 每个数据节点机器有12个磁盘,每个磁盘大小为12T 从 HDP 包安装的 Hadoop 集群类型(以前在 Horton-works 下,现在在 Cloudera 下) 用户抱怨在数据节点机器上运行的 Spark 应用程序运行缓慢 经过调查,我们在数据节点日志中看到以下警告 2024-03-18 17:41:30,230 WARN datanode.DataNode (BlockRecei...

Admin

Hadoop Namenode 堆大小调整
hdfs

Hadoop Namenode 堆大小调整

NameNode进程在Java虚拟机中执行,NameNode创建的Java对象在Java虚拟内存中进行管理,在文件或目录创建的同时,会在堆内存中创建inode对象和block对象。 命名空间管理的Java对象大小差不多是150字节,早期因为对象体积较小,所以在文件系统中可以存放相当数量的对象。 现在假设我们想调整 namnode 堆大小 调整名称节点堆大小也应该根据 HDFS 中的文件数量 表示堆大小和链接上定义的文件数量的表 -https://medium.com/@iacomini.riccardo/hadoop-namenode-garbage-col...

Admin

HDFS +花费很长时间将文件从hdfs复制到本地文件夹
hdfs

HDFS +花费很长时间将文件从hdfs复制到本地文件夹

我们有使用 HDFS 文件系统的 Hadoop 集群 问题是将文件从 HDFS 复制到本地文件夹需要花费大量时间 例如通常复制大小为3G需要几秒钟,但在我们的集群机器上需要大约 30 分钟 例如: su hdfs hdfs dfs -copyToLocal /data/file_hdfs.zip /var/tmp 在其他会话中,我们得到以下结果15分钟 du -sh /var/tmp/* 1.1G /var/tmp/file_hdfs.zip.zip._COPYING_ 我们已经验证了以下内容 所有数据节点机器的 CPU 负载平均值正常 所有...

Admin

VM 机器可以替代物理机吗?
hdfs

VM 机器可以替代物理机吗?

当所有机器都是 DELL 服务器 R740 时,我们有 254 台物理服务器。 服务器是 Hadoop 集群的一部分。其中大多数持有 HDFS 文件系统和数据节点及节点管理器服务,其中一部分是 Kafka 机器。 物理服务器上安装的操作系统是 RHEL 7.9 现在我们想向集群添加另外 52 台物理服务器。但我们只能添加R760必须安装的DELL 服务器RHEL 8.6 每台物理服务器包含256G、64个Core。 问题是我们无法使用 RHEL 8.6 版本,因为 Hadoop 版本不适合 RHEL 8.6 因此,我们需要继续使用 RHEL 7.9 版本,但...

Admin

HDP 集群 + 日志节点不同步
hdfs

HDP 集群 + 日志节点不同步

我们有 HDP 集群版本 2.6.5 当我们查看name-node日志时,我们可以看到以下警告 2023-02-20 15:56:37,731 INFO namenode.FileJournalManager (FileJournalManager.java:finalizeLogSegment(142)) - Finalizing edits file /hadoop/hdfs/journal/hdfsha/current/edits_inprogress_0000000193594484455 -> /hadoop/hdfs/journal/hd...

Admin

将数据放置在各个机架中如何有助于利用机架内聚合带宽> = 机架间带宽这一事实?
hdfs

将数据放置在各个机架中如何有助于利用机架内聚合带宽> = 机架间带宽这一事实?

GFS 研究论文快照 它说(我在阅读研究论文及其评论后的解释)“机架间带宽低于聚合机架内带宽(不确定聚合是什么意思,这种比较没有多大意义)。因此,通过将数据放置在各个机架之间,客户端可以利用从各个轨道读取的总带宽。比如怎么做?这是我的疑问。如果将数据放置在各个机架中,如何利用机架内聚合带宽? 如果发生客户端必须发送数据的突变,则多个机架是不利的,因为数据必须传输更长的距离。”... 我不明白它试图表达的关于带宽的观点。有人能解释一下吗?为什么读取和写入会有所不同?我理解写入。由于您在距离=0 处写入,因此如果您必须在距离=1000 处写入,那么您的数据需要传...

Admin

HDFS +如何禁用数据节点磁盘上的“du -sk”验证
hdfs

HDFS +如何禁用数据节点磁盘上的“du -sk”验证

我们正在使用 HDP 集群182 data node机器: HDP 版本 - 2.6.4 Ambari 版本 2.6.1 我们注意到机器上存在以下行为data nodes(它发生在所有data-node机器和所有磁盘上)。 当我们执行如上例所示的命令时: ps -eo s,user,cmd | grep ^[RD] D hdfs du -sk /grid/sdj/hadoop/hdfs/data/current/BP-1018134753-10.3.6.170-1530088122990 D hdfs du -sk /grid/sdm/had...

Admin

Hadoop 重新调试数据节点
hdfs

Hadoop 重新调试数据节点

在重新启动数据节点之前,我是否需要从数据节点中删除所有数据,或者这无关紧要,并且名称节点不会从数据节点中选择陈旧的数据? ...

Admin

更改 HDFS 复制因子
hdfs

更改 HDFS 复制因子

我使用命令将某些目录的复制因子从 3 更改为 2: hdfs dfs -setrep -R 2 /path/to/dir 但我的 HDFS 可用空间仍然相同。我应该做其他事情来释放我的磁盘吗? ...

Admin

HDFS。如何释放 1 个特定磁盘
hdfs

HDFS。如何释放 1 个特定磁盘

我有包含 3 台服务器的集群。其中 2 台有 2 TB 磁盘,另一台有 500 Gb SSD。我尝试使用平衡器,但由于非 dfs 文件,2TB 磁盘的使用率仍为 70%,500Gb 磁盘的使用率仍为 99%。复制系数 = 2。是否可以使用平衡器或其他方式释放我的 500 Gb 磁盘? ...

Admin

Hadoop 集群数据节点容量规划(每个数据节点的磁盘)
hdfs

Hadoop 集群数据节点容量规划(每个数据节点的磁盘)

我们计划构建一个有 12 个数据节点的 Hadoop 集群 when the replication factor is 3 and DataNode failed disk tolerance - 1 数据节点机器包括 HDFS 的磁盘 因为我们没有找到每个数据节点需要多少个磁盘的标准 我们不确定应该为每个数据节点分配的最小磁盘数量 每个数据节点的最小磁盘数量是多少,假设复制因子为 3 ...

Admin

用于 HDFS 的 EC2 实例存储的最佳 RAID 配置
hdfs

用于 HDFS 的 EC2 实例存储的最佳 RAID 配置

我正在尝试确定在用于 HDFS 的 3x d2.2xlarge 实例的实例存储上配置 RAID 阵列是否有任何实际优势。最初,我计划只安装每个存储并将其添加为 Hadoop 的附加数据目录。但使用 RAID 0 或 10 配置似乎可以提高一些额外的性能。由于耐用性由 HDFS 本​​身处理,因此无需从该角度考虑 RAID 1 或 5(例如:如果实例上的一个或所有存储发生故障,则耐用性由来自其他数据节点的复制提供)。RAID 6 似乎不切实际,因为已知重建时间长和 2x 奇偶校验写入导致的吞吐量性能降低(再次,让 HDFS 处理耐用性似乎是最好的)。剩下的 R...

Admin

列出 hdfs 目录中的所有文件
hdfs

列出 hdfs 目录中的所有文件

由于某个组件出现错误,HDFS 中的文件不断积累,数量非常大,达到 2123516 个。我想列出所有文件并将它们的名称复制到一个文件中,但是当我运行以下命令时,会出现 Java 堆空间错误。 hdfs dfs -ls /tmp/content/ Exception in thread "main" java.lang.OutOfMemoryError: Java heap space at java.util.Arrays.copyOf(Arrays.java:3332) at java.lang.AbstractStringBuilde...

Admin

AWS FSx for Lustre 与 S3 对比 EMR(使用 EMRFS)用于 Spark 作业
hdfs

AWS FSx for Lustre 与 S3 对比 EMR(使用 EMRFS)用于 Spark 作业

我们目前正在使用 EMR 来轻松提交我们的 Spark 作业。最近我遇到了“FSx lustre + S3”解决方案,该解决方案被宣传为 HPC 情况的理想选择。然而,据说 EMRFS 也针对这种特定场景进行了优化,使 S3 看起来像本地 Hadoop 文件系统。 所以我想知道,为什么有人会在成本和性能方面选择这两者中的任何一个? 这个问题可以跟进AWS EMR 使用 AWS S3 时的费用但不幸的是,我没有资格在那里发表评论。 先谢谢您的帮助。 ...

Admin