wget 仅下载每个文件夹中的 index.html

2024-6-4 • tag-icon

wget 仅下载每个文件夹中的 index.html

例如：

wget -m https://www.kali.org

没有警告，没有错误；可能有什么问题？

为了变得更加复杂，我使用了推荐的命令（见下文），但输出并不令人满意（目前）：

wget --recursive --no-clobber --page-requisites --html-extension --convert-links --domains=kali.org www.kali.org
Both --no-clobber and --convert-links were specified, only --convert-links will be used.
URL transformed to HTTPS due to an HSTS policy
--2019-07-04 14:13:38--  https://www.kali.org/
Resolving www.kali.org (www.kali.org)... 192.124.249.10
Connecting to www.kali.org (www.kali.org)|192.124.249.10|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 18714 (18K) [text/html]
Saving to: ‘www.kali.org/index.html.gz’

www.kali.org/index.html.gz      100%[=======================================================>]  18.28K  --.-KB/s    in 0.01s   

2019-07-04 14:13:38 (1.84 MB/s) - ‘www.kali.org/index.html.gz’ saved [18714/18714]

FINISHED --2019-07-04 14:13:38--
Total wall clock time: 0.3s
Downloaded: 1 files, 18K in 0.01s (1.84 MB/s)
Converting links in www.kali.org/index.html.gz... nothing to do.
Converted links in 1 files in 0 seconds.

但...镜像https://www.cnn.com- 例如

Ubuntu 19.04
代号：disco

某些页面以“查看页面源代码”的形式加载：

<!doctype html>
<html lang="en">
<head>
  <meta charset="utf-8">
  <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">
  <meta name="viewport" content="initial-scale=1.0, maximum-scale=1.0" />
  <link href='./index.css' rel='stylesheet' type='text/css'>
  <title>crontab.guru - the cron schedule expression editor</title>
  <meta name="description" content="An easy to use editor for crontab schedules.">
  <meta name="google-site-verification" content="QPa8OWuMuIsXgvuvPdfSCxA4ewd2Gs5tTUh0k2crBPE" />
</head>
<body>
<a href="/"><h1>crontab guru</h1></a>
<div class="blurb">
  <div>The quick and simple editor for cron schedule expressions by <a href="https://cronitor.io?utm_source=crontabguru&utm_campaign=cronitor_top" title="Cron job monitoring and observability" rel="nofollow">Cronitor</a></div>
</div>
<div id="content">loading...</div>

并且树目录再次未被下载。

Check after 4 years and now works fine.

答案1

这会起作用，它会将网站复制到本地。

如果这是您想要的，请使用以下命令（更改domain.com为您想要的域）：

wget --recursive --no-clobber --page-requisites --html-extension --convert-links --domains=domain.com domain.com

--recursive意思是：下载整个网站。
--no-clobber意思是：不要覆盖现有文件。
--page-requisites意思是：下载页面的所有组件，包括图片。
--html-extension意思是：将页面保存为.html文件。
--convert-links意思是：将所有链接转换为本地运行，即离线运行。
--domains=domain.com意思是：不要跟随该域之外的链接。

注意：

一些网络服务器对所服务的页面使用压缩，wget并将下载压缩文件，index.html.gz如下所示：

2019-07-04 14:13:38 (1.84 MB/s) - 'domain.com/索引.html.gz' 已保存 [18714/18714]

在这种情况下，wget需要一个额外的选项--compression=auto或--compression=gzip在本地正确处理和解压缩页面。您可以像这样使用带有此选项的命令（更改domain.com为您想要的域）：

wget --compression=auto --recursive --no-clobber --page-requisites --html-extension --convert-links --domains=domain.com domain.com

如需进一步了解，请参阅Wget——非交互式网络下载器

答案2

我有同样的问题。

尝试这个命令：

wget --wait 1 -x -H -mk http://site.to.mirror/

相关内容