wget：识别损坏的出站链接

Question

关于sitemap.xml直接读取，这似乎是一个新功能wget2：

支持从本地 Sitemap XML 文件扫描 URL ( --force-sitemap -i <filename>)

wget要在没有站点地图的情况下生成网站中所有 URL 的平面列表，我们可以抓取网站并使用类似 grep 的工具从wget输出中提取 URL：

wget --spider -r mywebsite.com 2>&1 \
| rg '^--.+-- (.+)$' --replace '$1' \
| sort -u

Wget 可能不是完成这项工作的最佳工具，但它是可行的。

Answer 1

关于sitemap.xml直接读取，这似乎是一个新功能wget2：

支持从本地 Sitemap XML 文件扫描 URL ( --force-sitemap -i <filename>)

wget要在没有站点地图的情况下生成网站中所有 URL 的平面列表，我们可以抓取网站并使用类似 grep 的工具从wget输出中提取 URL：

wget --spider -r mywebsite.com 2>&1 \
| rg '^--.+-- (.+)$' --replace '$1' \
| sort -u

Wget 可能不是完成这项工作的最佳工具，但它是可行的。

相关内容