蜘蛛/爬取网站并获取 CSV 文件中每个 URL 和页面标题

蜘蛛/爬取网站并获取 CSV 文件中每个 URL 和页面标题

我正在从旧的 ASP 购物车网站迁移到 Drupal/Ubercart 网站。迁移的一部分是确保旧链接重定向到新链接。要做到这一点,我需要的只是某种方法来获取旧网站的所有链接列表。

最好结果包含页面标题,并且理想情况下我可以通过某种方式从页面返回其他数据(例如 CSS 选择器)。

如果它可以在 OS X 中运行,我会更喜欢,但我也可以使用 Windows 应用程序。

我努力了正直,但它的输出几乎不可能被破译,而且它似乎工作得不太好。

答案1

如果您不介意编写 Perl 脚本...

本模块 为机器人或其他网络代理实现可配置的网络遍历引擎。给定一个初始网页(URL),机器人将获取该网页的内容,并提取该网页上的所有链接,将它们添加到要访问的 URL 列表中。

相关内容