如何使用 for 循环从各种文件中删除 . 扩展名之前的四个随机字符？

Question 1

尝试这样的事情：

for forward_read_file in *_1*.fastq; do
   srr=$(echo "$forward_read_file" | cut -d_ -f1)
   rrf_array=( $(find . -name "${srr}_2_*.fastq") )

   case "${#rrf_array[@]}" in
     0) echo "Warning: No reverse read file found for $forward_read_file" > /dev/stderr ;;

     1) reverse_read_file="${rrf_array[1]}"
        perl /home/gomeza/shared/sharm646-2021-02-24-09_22/Softwares/NGSQCToolkit_v2.3.3/Trimming/AmbiguityFiltering.pl -i "$forward_read_file" -irev "$reverse_read_file" -c 1 -t5 -t3
        ;;

     *) echo "Error: multiple reverse read files found for $forward_read_file" > /dev/stderr ;;
   esac

done

这会迭代所有_1文件。它用于cut提取 SRR 样本 ID，然后将其与find命令一起使用来查找任何匹配的_2文件。 find的输出存储在数组中，因为我们不知道可能返回多少结果。

它处理三种可能的结果 - 没有匹配（不好）、恰好 1 个匹配（好，这就是我们想要的）和超过 1 个匹配（同样，不好）。

如果只有一个结果，请从数组中提取匹配的文件并使用 perl 脚本对其进行处理。

如果有零个或多个结果，则将警告消息打印到 stderr 并继续处理下一个_1文件名。如果您愿意，您可以在这些情况; exit 1之前添加（或其他代码来处理错误）。;;

这将忽略文件名的所有部分，除了开头的 SRR 样本 id 以及将其标识为正向或反向配对文件的_1或。_2

if; then; else顺便说一句，这可以用 an 而不是声明来完成case，但我认为以不同的方式处理零个和多个案例很有用。例如

if [ "${#rrf_array[@]}" == 1 ]; 
  reverse_read_file="${rrf_array[1]}"
  perl /home/gomeza/shared/sharm646-2021-02-24-09_22/Softwares/NGSQCToolkit_v2.3.3/Trimming/AmbiguityFiltering.pl -i "$forward_read_file" -irev "$reverse_read_file" -c 1 -t5 -t3
else
  echo "Warning: unknown problem with reverse read file for $forward_read_file" > /dev/stderr
fi

如果您只想忽略“问题”文件，请删除该else块。

顺便说一句，为了使您的脚本更具可读性，我建议在脚本顶部附近执行类似的操作：

AFilter='/home/gomeza/shared/sharm646-2021-02-24-09_22/Softwares/NGSQCToolkit_v2.3.3/Trimming/AmbiguityFiltering.pl'

然后：

perl "$AFilter" -i "$forward_read_file" -irev "$reverse_read_file" -c 1 -t5 -t3

或者，如果 perl 脚本是可执行的（即使用#!/usr/bin/perl或类似的 shebang 行，并且使用来设置可执行标志chmod +x），则只需添加/home/gomeza/shared/sharm646-2021-02-24-09_22/Softwares/NGSQCToolkit_v2.3.3/Trimming/到 $PATH 即可：

PATH="$PATH:/home/gomeza/shared/sharm646-2021-02-24-09_22/Softwares/NGSQCToolkit_v2.3.3/Trimming"

并将脚本运行为：

AmbiguityFiltering.pl -i "$forward_read_file" -irev "$reverse_read_file" -c 1 -t5 -t3

Answer