我正在尝试使用 wget 从带有 apache2 的 AWS ubuntu 服务器下载。我尝试了几种不同的选项,但它们都导致目录名称的文件或 index.html 文件。
目录内有3张图片和一个ogg格式的视频。
这是我正在使用的 wget:
wget -N -np http://domainorIP/dir/dir2/dirtodownload/
- -N 仅下载较新的文件
- -np 不上升到父目录
答案1
默认情况下,wget
仅下载您指定的 URL,而不下载 HTML 页面链接的任何资源。要跟踪这些链接,您需要-r
(或--recursive
) 选项。
还有一个--page-requisites
选项可以下载显示您提供的页面所需的任何资源,例如内联图像和样式表。
还有“分组”选项,例如--mirror
包括-r
以及其他几个对镜像有用的选项。
手册页非常庞大,因为wget
包含很多功能。有关的部分Recursive Retrieval Options
非常值得您花时间阅读。
答案2
下载 CLI 浏览器并下载所需文件,您可以使用 ELinks 或 W3M
apt-get install elinks w3m
答案3
我从来没有成功获取curl
或wget
下载过启用了 的 Apache 服务器提供的文件indexing directories
。我想这也是你的问题。浏览目录时,它们显示如下:
在 Apache 中,它们是这样启用的:
<Directory /var/www/domain.com/pdfs>
Options Indexes FollowSymLinks
</Directory>
使用 shell 时,您的选项仅限于获取文件列表,然后使用如下命令一次下载一个文件:
% URL="http://www.lamolabs.org/blog/wp-content/uploads/2012/10/"
% curl -s $URL | \
grep "href" | \
grep -v "C=D;O=A" | \
sed "s#^.*href=\"#$URL#" | \
sed 's/">.*$//' | \
xargs wget
具体来说:
- URL="..." - is the URL I want to download files from
- curl -s $URL - get's the contents of the index.html generated by Apache
- grep "href" - get lines that contain only href
- grep -v "C=D;O=A" - eliminate the header bar line generated by Apache
- sed "s#^.*href=\"#$URL#" - replace .*href=" lines with URL
- sed 's/">.*$//' - remove trailing characters >.*$
- xargs wget - download each file using wget
您可以将其作为单个命令运行:
url="http://www.lamolabs.org/blog/wp-content/uploads/2012/10/"; curl -s $url | grep "href" | grep -v "C=D;O=A" | sed "s#^.*href=\"#$url#" | sed 's/">.*$//' | xargs wget
运行它会导致下载以下文件:
% ls -l
total 1652
-rw-rw-r-- 1 saml saml 1351400 Oct 8 23:35 Anatomy-of-the-Linux-file-system.mht
-rw-rw-r-- 1 saml saml 485 Oct 11 00:42 eratosthenes_prime_sieve.pl_.txt
-rw-rw-r-- 1 saml saml 27191 Oct 3 21:42 Selection_005-150x150.png
-rw-rw-r-- 1 saml saml 24202 Oct 3 21:42 Selection_005.png
-rw-rw-r-- 1 saml saml 27141 Oct 3 21:42 Selection_006-150x150.png
-rw-rw-r-- 1 saml saml 24906 Oct 3 21:42 Selection_006.png
-rw-rw-r-- 1 saml saml 25783 Oct 3 22:17 Selection_007-150x150.png
-rw-rw-r-- 1 saml saml 111915 Oct 3 22:17 Selection_007-650x180.png
-rw-rw-r-- 1 saml saml 48109 Oct 4 09:57 Selection_007-e1349359020755.png
-rw-rw-r-- 1 saml saml 29336 Oct 3 22:17 Selection_007.png