尝试找到每天甚至每小时执行此过程的方法:
- 前往亚马逊并搜索“商品”
- 在搜索结果中查找特定产品(它总是具有相同的标题)
- 捕获特定产品的链接(定期更改)
- 将此链接存储在某处,并更新着陆页的链接(可以是 HTML、Google 页面等任何内容)
关于从哪里开始,有什么想法吗?
答案1
我建议研究一下名为 Selenium 的库。它也作为 Firefox 的扩展存在,但我也会安装该库来使用该扩展生成的代码。就我个人而言,我使用的是 Python。
该扩展程序可记录您在 Web 浏览器中执行的所有操作。记录完成后,它将尝试以您选择的语言生成代码。根据我的经验,您必须稍微调整该代码才能使其正常工作,但样板和错误报告之类的东西就没问题了。
使用 Selenium,您可以编写一个脚本来执行以下操作:
- 在 amazon.com 上打开浏览器
- 点击搜索框
- 搜索商品标题
- 导航至商品页面
- 捕获商品页面的 URL
- 将 URL 导出为 .txt 或任何你想用它做的事情
一旦代码运行起来,您就可以在 Linux 上的 crontab 或 Windows 上的 Windows Scheduler 中设置任务,以按照您喜欢的频率执行脚本。
有关更多信息,请参阅 Selenium 的文档页面 http://www.seleniumhq.org/docs/