使用 Shell 脚本根据时间戳将文件从 HDFS 复制到本地文件系统

Question

根据上述场景，要完成这项任务，有多种方法，我们可以基于以下方法完成时间戳或在某些日志文件中跟踪已处理的文件

我在这里使用的方法我将跟踪已处理的文件的名称即从HDFS 到本地文件系统。

如果我第一次运行脚本，则驻留在 HDFS 中的文件将被移动到本地文件系统，并检查该文件的名称是否存在已处理文件.txt是否。如果不是，则文件将移动到本地文件系统，并进入已处理文件.txt. 如果 filename 存在于已处理文件.txt就不会移动到本地文件系统。

代码：

# Local file system location
path=/home/cloudera/test/

#processedfile.txt location
logpath=/home/cloudera/test/processedfile.txt

#HDFS file location
hdfspath=/user/test/

# to get list of files from HDFS dir
for filename in `hadoop fs -ls ${hdfspath}*|  awk '{print $NF}'  | tr '\n' ' '`
do

# get file name
    name=$(basename $filename)

# check filename is present in processedfile.txt or not 
            if grep -Fxq $name $logpath;
        then
        echo $name is present in local file system
        else

#copy file from HDFS to Local File System.      
          hadoop fs -copyToLocal $filename $path
          echo "$name" >> "$logpath"
        fi
done
echo prosessing completed

Answer 1

根据上述场景，要完成这项任务，有多种方法，我们可以基于以下方法完成时间戳或在某些日志文件中跟踪已处理的文件

我在这里使用的方法我将跟踪已处理的文件的名称即从HDFS 到本地文件系统。

如果我第一次运行脚本，则驻留在 HDFS 中的文件将被移动到本地文件系统，并检查该文件的名称是否存在已处理文件.txt是否。如果不是，则文件将移动到本地文件系统，并进入已处理文件.txt. 如果 filename 存在于已处理文件.txt就不会移动到本地文件系统。

代码：

# Local file system location
path=/home/cloudera/test/

#processedfile.txt location
logpath=/home/cloudera/test/processedfile.txt

#HDFS file location
hdfspath=/user/test/

# to get list of files from HDFS dir
for filename in `hadoop fs -ls ${hdfspath}*|  awk '{print $NF}'  | tr '\n' ' '`
do

# get file name
    name=$(basename $filename)

# check filename is present in processedfile.txt or not 
            if grep -Fxq $name $logpath;
        then
        echo $name is present in local file system
        else

#copy file from HDFS to Local File System.      
          hadoop fs -copyToLocal $filename $path
          echo "$name" >> "$logpath"
        fi
done
echo prosessing completed

使用 Shell 脚本根据时间戳将文件从 HDFS 复制到本地文件系统

答案1

相关内容