下载/更新 XML 站点地图中列出的网页

下载/更新 XML 站点地图中列出的网页

我正在搜索一个 FLOSS 工具,它可以下载 XML 站点地图中链接的所有页面(以及嵌入的资源,例如图像)(根据http://www.sitemaps.org/)。

该工具应定期“抓取”站点地图并查找新的和已删除的 URL 以及元素中的更改lastmod。因此,每当添加/删除/更新页面时,该工具都应应用更改。

一些站点地图在sitemapindex→中列出了子站点地图sitemap。该工具应该理解这一点,并加载所有链接的子站点地图并在其中查找 URL。


我知道有一些工具可以让我从站点地图中提取所有 URL,以便我可以将它们提供给 wget 或类似工具(例如:从站点地图(xml)中提取链接)但是这无助于引起人们对页面更新的注意。追踪网页本身的更新不起作用,因为页面上的“次要”内容每天都在变化,但lastmod只有在相关内容发生变化时才会更新。

答案1

您是否尝试过使用 wget 和 cron 编写此脚本?查看 wget 的--spider标志。除了偶尔运行 cron 之外,它似乎就是您所需要的一切。

相关内容