wget AWS ubuntu apache2 的问题

wget AWS ubuntu apache2 的问题

我正在尝试使用 wget 从带有 apache2 的 AWS ubuntu 服务器下载。我尝试了几种不同的选项,但它们都导致目录名称的文件或 index.html 文件。

目录内有3张图片和一个ogg格式的视频。

这是我正在使用的 wget:

wget -N -np http://domainorIP/dir/dir2/dirtodownload/

  • -N 仅下载较新的文件
  • -np 不上升到父目录

答案1

默认情况下,wget仅下载您指定的 URL,而不下载 HTML 页面链接的任何资源。要跟踪这些链接,您需要-r(或--recursive) 选项。

还有一个--page-requisites选项可以下载显示您提供的页面所需的任何资源,例如内联图像和样式表。

还有“分组”选项,例如--mirror包括-r以及其他几个对镜像有用的选项。

手册页非常庞大,因为wget包含很多功能。有关的部分Recursive Retrieval Options非常值得您花时间阅读。

答案2

下载 CLI 浏览器并下载所需文件,您可以使用 ELinks 或 W3M

apt-get install elinks w3m

答案3

我从来没有成功获取curlwget下载过启用了 的 Apache 服务器提供的文件indexing directories。我想这也是你的问题。浏览目录时,它们显示如下:

Apache 索引目录的图像

在 Apache 中,它们是这样启用的:

<Directory /var/www/domain.com/pdfs>
Options Indexes FollowSymLinks
</Directory>

使用 shell 时,您的选项仅限于获取文件列表,然后使用如下命令一次下载一个文件:

% URL="http://www.lamolabs.org/blog/wp-content/uploads/2012/10/"
% curl -s $URL | \
     grep "href" | \
     grep -v "C=D;O=A" | \
     sed "s#^.*href=\"#$URL#" | \
     sed 's/">.*$//' | \
     xargs wget

具体来说:

 - URL="..."                - is the URL I want to download files from
 - curl -s $URL             - get's the contents of the index.html generated by Apache
 - grep "href"              - get lines that contain only href
 - grep -v "C=D;O=A"        - eliminate the header bar line generated by Apache
 - sed "s#^.*href=\"#$URL#" - replace .*href=" lines with URL
 - sed 's/">.*$//'          - remove trailing characters >.*$
 - xargs wget               - download each file using wget

您可以将其作为单个命令运行:

url="http://www.lamolabs.org/blog/wp-content/uploads/2012/10/"; curl -s $url | grep "href" | grep -v "C=D;O=A" | sed "s#^.*href=\"#$url#" | sed 's/">.*$//' | xargs wget 

运行它会导致下载以下文件:

% ls -l
total 1652
-rw-rw-r-- 1 saml saml 1351400 Oct  8 23:35 Anatomy-of-the-Linux-file-system.mht
-rw-rw-r-- 1 saml saml     485 Oct 11 00:42 eratosthenes_prime_sieve.pl_.txt
-rw-rw-r-- 1 saml saml   27191 Oct  3 21:42 Selection_005-150x150.png
-rw-rw-r-- 1 saml saml   24202 Oct  3 21:42 Selection_005.png
-rw-rw-r-- 1 saml saml   27141 Oct  3 21:42 Selection_006-150x150.png
-rw-rw-r-- 1 saml saml   24906 Oct  3 21:42 Selection_006.png
-rw-rw-r-- 1 saml saml   25783 Oct  3 22:17 Selection_007-150x150.png
-rw-rw-r-- 1 saml saml  111915 Oct  3 22:17 Selection_007-650x180.png
-rw-rw-r-- 1 saml saml   48109 Oct  4 09:57 Selection_007-e1349359020755.png
-rw-rw-r-- 1 saml saml   29336 Oct  3 22:17 Selection_007.png

相关内容