我正在尝试一次性抓取 1265 个 html 文件,以获取网站上的商品名称和描述。
我已获得批发商的许可,可以复制那里的数据,但我不想花几天时间只为获取描述,那么有没有办法以以下格式抓取数据?
<h1 class="CWproductName">ADINA BLACK TV UNIT</h1>
和
<div id="CWproductInfo">
<br />Adina Black TV Unit<br> Oak Finish<br>800W x 500D x 560H<br><br />
<p class="CWcontShop">
我希望做的是复制以下信息
<div id="CWproductInfo"> and <p class="CWcontShop">
所以我剩下
<h1 class="CWproductName">ADINA BLACK TV UNIT</h1>
<br />Adina Black TV Unit<br> Oak Finish<br>800W x 500D x 560H<br><br />
但如果可以同时从多个页面输入到电子表格中就更好了
答案1
我将尝试使用 Power Query 插件 - 它可以循环遍历网站页面并从中提取数据,只要页面及其 URL 一致。
以下是一个例子:
http://kzhendev.wordpress.com/2014/04/14/scraping-the-web-with-power-query/