htm 内的网页抓取框架;

htm 内的网页抓取框架;

我是网络抓取新手。我正在尝试抓取https://www.harris.com/careers/jobs针对每个职位。信息包含在以下 XPath 中://*[@id="frmJobs"]。我正在使用 Chrome“Scraper”插件。该插件无法使用所有可用的选择器选择框架。我想知道是否有一种简单的方法来创建一个站点地图,该站点地图将进入框架并提取所有链接信息。如果可能的话,请告诉我。

答案1

好吧,我尝试了 Octoparse,这是一个网页抓取工具,用于提取框架数据,我得到了我想要的所有信息。例如,我在文本框中输入“公共卫生”来搜索工作并提取这些结果。我上传了 .otd 文件这是使用 Octoparse 提取公共卫生职位的配置规则公共卫生岗位提取结果如下。

相关内容