每周自动捕获网页

每周自动捕获网页

我搜寻了一个小时,但没有很快找到任何东西。

我想每周捕获一个包含价格的网页。该网站是一个牲畜拍卖网站。

这里的变化是目标页面名称每周都会变化,因此,我需要能够在主页上指定链接位置,以获取我想要的页面。

我可以在一两天内写出一些东西来截取屏幕,但肯定已经有一个程序可以做到这一点。我不介意编写代码,但我不喜欢重新发明轮子。

我刚刚因为其他原因购买了 HTTrack,如果它能用,就说出来,我会去弄清楚的。(实际上 30 分钟前才下载,所以除了为客户抓取网站外,还没有看过它。)

快速查看了 Selenium,但是这对于我想要的东西来说似乎有点过度了?

更多信息:这是一个链接,希望位于主页上的同一位置。
我想将其保存为在本地文件名前面加上日期。我更愿意在 Windows 上完成这一切,因为这是我最了解的。必须通过 Win 7 中的调度程序运行!

最后,我想抓取页面来收集价格并将其放入 excel 中,所以如果有人使用过这样的工具,那就更好了。(我仍然想在本地保存价格页面,作为我可能进行的任何屏幕抓取的备份。)

答案1

你可以使用类似以下命令下载页面获得。只需将命令放入批处理文件中,并安排批处理文件每周运行一次。

但是,由于您最终想要解析文件,我只会查看 ruby​​ 的打开并编写一个脚本来保存该页面,稍后您可以扩展该脚本来执行解析。

答案2

由于您的要求之一是在 Windows 中执行任务,并且您的链接很容易定义并可从主页获取,因此我建议使用AutoIT 脚本执行该功能。我将特别遵循以下示例:IE 用户定义函数它拥有完善的支持函数库,可以减少简单任务的编程负担。

相关内容