来自包含 URL 的文本文件的卷曲页面源

来自包含 URL 的文本文件的卷曲页面源

我有一个最多包含 100 个 URL 的文本文件。我可以使用以下方法从它们中获取页面源:

cat /path/to/url.txt|xargs curl -o /path/to/output.txt

这将下载所有 URL 的页面源(正如我可以在命令行中看到的那样),但它只会保存(在output.txt)列表顶部 URL 的页面源。

我将如何保存每个 URL 的页面源代码,无论是在同一个文本文件中还是在必要时在单独的文本文件中。

谢谢,

答案1

使用 GNU Parallel,您可以并行获取多个 URL,并且无需担心输出混合:

cat /path/to/url.txt | parallel curl > /path/to/output.txt

答案2

for i in $(cat urls.txt); do curl "$i" >> output.txt; done

答案3

每行都有一个简单的 url 列表,这应该可以完成工作并将所有内容输出到单个文件中:

while read in; do xargs curl -K "$in" >> /path/to/output.txt; done < /path/to/url.txt

相关内容