使用 wget 限制文件

使用 wget 限制文件

我正在尝试下载邮件列表档案,例如

http://cryolist.org/archives/

具体来说,我有一个页面,想下载该页面链接的所有以“.txt.gz”结尾的文件。有没有办法限制 wget 执行此操作?如果不行,还有其他方法吗?

参考

http://www.gnu.org/software/wget/manual/html_node/

答案1

尝试这个:

执行以下命令
    --递归 \
    --无目录 \
    --无父级 \
    - 1级 \
    --接受.txt.gz \
    --执行机器人=关闭\
    http://lists.cryolist.org/pipermail/cryolist-cryolist.org/

使用长选项以提高可读性。

答案2

wget --help

-r,  --recursive          specify recursive download.
-l,  --level=NUMBER       maximum recursion depth (inf or 0 for infinite).
-A,  --accept=LIST        comma-separated list of accepted extensions.

请记住,文件链接到 iFramelists.cryolist.org/pipermail/cryolist-cryolist.org,以下命令将产生所需的结果:

wget -r -l1 -A "txt.gz" lists.cryolist.org/pipermail/cryolist-cryolist.org

开关

  • -r开关使下载链接到的其他资源。

  • 开关-l1将此限制为一个级别,即,如果page1链接到page2并且page2链接到unwanted.txt.gz,则不会下载该文件。

答案3

编写一个 bash 脚本,将所有月份存储在一个数组中,循环遍历它们并将它们插入到 wget 命令的正确位置

相关内容