如何在 php 中使用 wget 或 CURL 来抓取 URL 中带有星号 * 的网页快照? (Wayback Machine archive.org 问题)

如何在 php 中使用 wget 或 CURL 来抓取 URL 中带有星号 * 的网页快照? (Wayback Machine archive.org 问题)

Wayback Machine (archive.org) 上的以下网页的 URL 中有一个星号 *: https://web.archive.org/web/*/https://www.nasa.gov/

CURL 和 wget 都不允许我抓取页面。我正在使用最新版本的 Linux Mint (2018)。

如何在 php 中使用 wget 或 CURL 来获取 URL 中带有星号 * 的网页的快照,特别是https://web.archive.org/web/*/https://www.nasa.gov/

谢谢! httrack 可以工作吗?

编辑:打开网站 web.archive.org/web/%2A/https://www.nasa.gov在浏览器中。然后将其与使用 wget 命令看到的内容进行比较。它们是一样的吗?对我来说 wget 命令只返回一个通用页面。

答案1

只要 URL 用引号引起来,它似乎对我来说工作得很好。

如果您想避免出现“警告:HTTP 中不支持通配符”消息,最简单的方法是将星号替换为其百分比编码的等效值:

wget "https://web.archive.org/web/%2A/https://www.nasa.gov"

相关内容