我正在尝试下载邮件列表档案,例如
具体来说,我有一个页面,想下载该页面链接的所有以“.txt.gz”结尾的文件。有没有办法限制 wget 执行此操作?如果不行,还有其他方法吗?
参考
答案1
尝试这个:
执行以下命令 --递归 \ --无目录 \ --无父级 \ - 1级 \ --接受.txt.gz \ --执行机器人=关闭\ http://lists.cryolist.org/pipermail/cryolist-cryolist.org/
使用长选项以提高可读性。
答案2
从wget --help
:
-r, --recursive specify recursive download.
-l, --level=NUMBER maximum recursion depth (inf or 0 for infinite).
-A, --accept=LIST comma-separated list of accepted extensions.
请记住,文件链接到 iFramelists.cryolist.org/pipermail/cryolist-cryolist.org,以下命令将产生所需的结果:
wget -r -l1 -A "txt.gz" lists.cryolist.org/pipermail/cryolist-cryolist.org
开关
该
-r
开关使下载链接到的其他资源。开关
-l1
将此限制为一个级别,即,如果page1
链接到page2
并且page2
链接到unwanted.txt.gz
,则不会下载该文件。
答案3
编写一个 bash 脚本,将所有月份存储在一个数组中,循环遍历它们并将它们插入到 wget 命令的正确位置