根据查询从搜索结果中获取 URL,并在网页中更新

根据查询从搜索结果中获取 URL,并在网页中更新

尝试找到每天甚至每小时执行此过程的方法:

  1. 前往亚马逊并搜索“商品”
  2. 在搜索结果中查找特定产品(它总是具有相同的标题)
  3. 捕获特定产品的链接(定期更改)
  4. 将此链接存储在某处,并更新着陆页的链接(可以是 HTML、Google 页面等任何内容)

关于从哪里开始,有什么想法吗?

答案1

我建议研究一下名为 Selenium 的库。它也作为 Firefox 的扩展存在,但我也会安装该库来使用该扩展生成的代码。就我个人而言,我使用的是 Python。

该扩展程序可记录您在 Web 浏览器中执行的所有操作。记录完成后,它将尝试以您选择的语言生成代码。根据我的经验,您必须稍微调整该代码才能使其正常工作,但样板和错误报告之类的东西就没问题了。

使用 Selenium,您可以编写一个脚本来执行以下操作:

  1. 在 amazon.com 上打开浏览器
  2. 点击搜索框
  3. 搜索商品标题
  4. 导航至商品页面
  5. 捕获商品页面的 URL
  6. 将 URL 导出为 .txt 或任何你想用它做的事情

一旦代码运行起来,您就可以在 Linux 上的 crontab 或 Windows 上的 Windows Scheduler 中设置任务,以按照您喜欢的频率执行脚本。

有关更多信息,请参阅 Selenium 的文档页面 http://www.seleniumhq.org/docs/

相关内容