具有转换链接选项的 Web 爬虫

Question 1

如果您的问题是关于将请求从 www.subdomain 重定向到 subdomain.somedomain，您可以简单地使用Apache 中的 RewriteRule或其他 Web 服务器中的类似实现。您可以使用代理参数 P 从 www. 域为站点提供服务，并让 Web 服务器动态地从备份站点获取它。

如果您想抓取并修改内容，最简单的解决方案是使用wget镜像选项（适用于 Linux、Windows 等）。使用内置函数将绝对链接转换为相对链接可能就足够了。否则，只需使用搜索和替换工具或正则表达式来修改下载文件夹中的域。

Answer

如果您的问题是关于将请求从 www.subdomain 重定向到 subdomain.somedomain，您可以简单地使用Apache 中的 RewriteRule或其他 Web 服务器中的类似实现。您可以使用代理参数 P 从 www. 域为站点提供服务，并让 Web 服务器动态地从备份站点获取它。

如果您想抓取并修改内容，最简单的解决方案是使用wget镜像选项（适用于 Linux、Windows 等）。使用内置函数将绝对链接转换为相对链接可能就足够了。否则，只需使用搜索和替换工具或正则表达式来修改下载文件夹中的域。

Question 2

gnu wget 可以做到这一点。该选项-r用于递归下载，-k转换链接。请参阅请参阅手册页以获取更多信息

Answer

gnu wget 可以做到这一点。该选项-r用于递归下载，-k转换链接。请参阅请参阅手册页以获取更多信息

具有转换链接选项的 Web 爬虫

答案1

答案2

相关内容