使用 wget 递归检查所有页面上的断开链接,而不是仅在遇到的第一个页面上检查

使用 wget 递归检查所有页面上的断开链接,而不是仅在遇到的第一个页面上检查

我想找到整个域使用wget

我尝试了以下选项:

wget -r -nv --spider https://fr.ewen.works --span-hosts --domains=fr.ewen.works,en.ewen.works

不幸的是,它似乎只能找到出现在/给定域上的断开的链接。

wget 仅找到三个“损坏”的链接[^1],它们都出现在 上/。我尝试在另一个页面上引入损坏的链接,但它不见了

[^1]: 这些都是误报,因为我猜有些网站不允许爬虫。我在调用 wget 的脚本中处理了异常,但无论如何,这是一个单独的问题

我尝试在线搜索,但所有教程和博客文章都谈到在单个页面上检查断开的链接。

我也尝试删除该--spider选项,以便它有机会检查抓取页面的内容,但输出更难以解析(“找到 n 个断开的链接”输出不再存在),更重要的是仍然找不到断开的链接。

是否可以指示 wget 搜索断开的链接全部给定的抓取页面--domains

相关内容