网页抓取/爬取特定网站

网页抓取/爬取特定网站

我正在尝试一次性抓取 1265 个 html 文件,以获取网站上的商品名称和描述。
我已获得批发商的许可,可以复制那里的数据,但我不想花几天时间只为获取描述,那么有没有办法以以下格式抓取数据?

    <h1 class="CWproductName">ADINA BLACK TV UNIT</h1>

    <div id="CWproductInfo">


 <br />Adina Black TV Unit<br> Oak Finish<br>800W x 500D x 560H<br><br />
                <p class="CWcontShop">

我希望做的是复制以下信息

  <div id="CWproductInfo"> and <p class="CWcontShop">

所以我剩下

    <h1 class="CWproductName">ADINA BLACK TV UNIT</h1>

  <br />Adina Black TV Unit<br> Oak Finish<br>800W x 500D x 560H<br><br />

但如果可以同时从多个页面输入到电子表格中就更好了

答案1

我将尝试使用 Power Query 插件 - 它可以循环遍历网站页面并从中提取数据,只要页面及其 URL 一致。

以下是一个例子:

http://kzhendev.wordpress.com/2014/04/14/scraping-the-web-with-power-query/

相关内容