非 Hadoop 机器上的 Hadoop 文件系统

非 Hadoop 机器上的 Hadoop 文件系统

我很难找到有关此问题的信息,因为我的搜索结果中很多都是关于从属于集群的机器复制文件的基本信息。

问题:我有一个运行 hdfs 的 Hadoop 3 节点集群。一切运行正常。我可以使用文件视图,可以从 Windows 向其复制文件,可以从本地文件系统向 hdfs 复制文件,还可以查看目录、创建、删除等。

我有另一台不属于集群的机器。它正在运行 Dremio(仅供参考),它也是处理我最终需要复制到 hdfs 文件系统的文件的机器。Dremio 运行良好,但我正在尝试从这台机器访问 hdfs 文件系统,但我并不完全确定我应该如何正确地执行此操作。

由于我运行的脚本曾经在属于集群的机器上(正确)运行,因此我只安装了 hadoop-client(以访问 hdfs -dfs),并更新了行以引用 hdfs 集群(而不是假设它是本地的)。该命令如下所示:

hdfs dfs -copyFromLocal test.txt hdfs://ws-hdfs01:50070/Data/

这个精确的命令在盒子里运行得很好ws-hdfs01(删除hdfs://ws-hdfs01:70050/),但在不属于集群的机器上我收到以下错误:

19/06/04 12:11:09 WARN net.NetUtils: Unable to wrap exception of type class org.apache.hadoop.ipc.RpcException: it has no (String) constructor
java.lang.NoSuchMethodException: org.apache.hadoop.ipc.RpcException.<init>(java.lang.String)
        at java.lang.Class.getConstructor0(Class.java:3082)
        at java.lang.Class.getConstructor(Class.java:1825)
        at org.apache.hadoop.net.NetUtils.wrapWithMessage(NetUtils.java:830)
        at org.apache.hadoop.net.NetUtils.wrapException(NetUtils.java:806)
        at org.apache.hadoop.ipc.Client.getRpcResponse(Client.java:1501)
        at org.apache.hadoop.ipc.Client.call(Client.java:1443)
        at org.apache.hadoop.ipc.Client.call(Client.java:1353)
        at org.apache.hadoop.ipc.ProtobufRpcEngine$Invoker.invoke(ProtobufRpcEngine.java:228)
        at org.apache.hadoop.ipc.ProtobufRpcEngine$Invoker.invoke(ProtobufRpcEngine.java:116)
        at com.sun.proxy.$Proxy9.getFileInfo(Unknown Source)
        at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolTranslatorPB.getFileInfo(ClientNamenodeProtocolTranslatorPB.java:900)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:498)
        at org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java:422)
        at org.apache.hadoop.io.retry.RetryInvocationHandler$Call.invokeMethod(RetryInvocationHandler.java:165)
        at org.apache.hadoop.io.retry.RetryInvocationHandler$Call.invoke(RetryInvocationHandler.java:157)
        at org.apache.hadoop.io.retry.RetryInvocationHandler$Call.invokeOnce(RetryInvocationHandler.java:95)
        at org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHandler.java:359)
        at com.sun.proxy.$Proxy10.getFileInfo(Unknown Source)
        at org.apache.hadoop.hdfs.DFSClient.getFileInfo(DFSClient.java:1660)
        at org.apache.hadoop.hdfs.DistributedFileSystem$29.doCall(DistributedFileSystem.java:1583)
        at org.apache.hadoop.hdfs.DistributedFileSystem$29.doCall(DistributedFileSystem.java:1580)
        at org.apache.hadoop.fs.FileSystemLinkResolver.resolve(FileSystemLinkResolver.java:81)
        at org.apache.hadoop.hdfs.DistributedFileSystem.getFileStatus(DistributedFileSystem.java:1595)
        at org.apache.hadoop.fs.Globber.getFileStatus(Globber.java:65)
        at org.apache.hadoop.fs.Globber.doGlob(Globber.java:281)
        at org.apache.hadoop.fs.Globber.glob(Globber.java:149)
        at org.apache.hadoop.fs.FileSystem.globStatus(FileSystem.java:2016)
        at org.apache.hadoop.fs.shell.PathData.expandAsGlob(PathData.java:353)
        at org.apache.hadoop.fs.shell.CommandWithDestination.getRemoteDestination(CommandWithDestination.java:195)
        at org.apache.hadoop.fs.shell.CopyCommands$CopyFromLocal.processOptions(CopyCommands.java:348)
        at org.apache.hadoop.fs.shell.Command.run(Command.java:176)
        at org.apache.hadoop.fs.FsShell.run(FsShell.java:328)
        at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:76)
        at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:90)
        at org.apache.hadoop.fs.FsShell.main(FsShell.java:391)
copyFromLocal: Failed on local exception: org.apache.hadoop.ipc.RpcException: RPC response exceeds maximum data length; Host Details : local host is: "ws-bi01[fqdn removed]/10.0.10.37"; destination host is: "ws-hdfs01":50070;

如果有更好的命令可以将文件复制到系统,我宁愿卸载 Hadoop 客户端并以这种方式执行操作,但就像我说的那样,我很难找到它,因为关于如何从属于集群的机器将文件从本地系统复制到 hdfs 文件系统的搜索结果成千上万。

相关内容