wget — 通过集群上的多个节点下载多个文件

Question 1

将命令展开为多个wget命令，以便您可以将它们作为列表发送到 SLURM：

while IFS= read -r url; do 
  printf 'wget "%s"\n' "$url"
done < sgdp-download-list.txt > wget.sh

或者，如果您sgdp-download-list.txt只是一个开头wget缺少命令的列表（这就是您的示例所建议的），只需使用：wget

sed 's/^/wget /' sgdp-download-list.txt > wget.sh

然后，将其wget.sh作为作业提交。

Answer

将命令展开为多个wget命令，以便您可以将它们作为列表发送到 SLURM：

while IFS= read -r url; do 
  printf 'wget "%s"\n' "$url"
done < sgdp-download-list.txt > wget.sh

或者，如果您sgdp-download-list.txt只是一个开头wget缺少命令的列表（这就是您的示例所建议的），只需使用：wget

sed 's/^/wget /' sgdp-download-list.txt > wget.sh

然后，将其wget.sh作为作业提交。

Question 2

框架挑战

您说的是 25 TB 的下载量。我想您会发现获取节点是您最不担心的事情。如果它们来自同一远程站点，则远程站点也可能存在 CPU 问题。更重要的是，网络带宽是一个问题。如果您尝试通过一个管道拉取此下载，那么拉动多少个节点实际上并不重要 - 管道将是限制。

话虽如此，wget 并不是特别占用 CPU 资源。就 CPU 而言，在一个节点上并行运行 10 个程序应该不是问题。

如果这是一项常规活动，我建议您查看是否可以下载增量。

Usenet 有一个老笑话。有人问每天从洛杉矶发送大量数据到旧金山的最佳方式是什么。答案：UPS。网络速度提高了，但音量也提高了。亚马逊牢记这一点：他们可以向您运送一个盒子来将数据加载到其中，然后运回以将其放入他们的云中。

Answer