Bash 脚本从 Ebay HTML 页面中提取一些信息

Question 1

从 eBay 获取数据的最佳方式是通过他们的应用程序编程接口。话虽这么说，有时您拥有的只是 HTML，所以我将在我的回答中介绍这一点。

甚至不要尝试使用 sed 和 grep 等工具从 HTML 中提取信息。当它完全起作用时很难做到，而且非常脆弱。这条路充满了疯狂。

如果必须解析HTML，请使用解析HTML的工具，例如Python的美丽汤图书馆，Perl 的HTML::树构建器, 红宝石的诺科吉里， ETC。

#!/usr/bin/env python2
import codecs, sys, BeautifulSoup
html = BeautifulSoup.BeautifulSoup(codecs.open(sys.argv[1], "r", "utf-8").read())
for lv in html.findAll("h3", "lvtitle"):
    url = lv.find("a")["href"]
    bid = lv.findNextSibling("ul").find("span", "bidsold").text.strip()
    print(url, bid)

Answer

从 eBay 获取数据的最佳方式是通过他们的应用程序编程接口。话虽这么说，有时您拥有的只是 HTML，所以我将在我的回答中介绍这一点。

甚至不要尝试使用 sed 和 grep 等工具从 HTML 中提取信息。当它完全起作用时很难做到，而且非常脆弱。这条路充满了疯狂。

如果必须解析HTML，请使用解析HTML的工具，例如Python的美丽汤图书馆，Perl 的HTML::树构建器, 红宝石的诺科吉里， ETC。

#!/usr/bin/env python2
import codecs, sys, BeautifulSoup
html = BeautifulSoup.BeautifulSoup(codecs.open(sys.argv[1], "r", "utf-8").read())
for lv in html.findAll("h3", "lvtitle"):
    url = lv.find("a")["href"]
    bid = lv.findNextSibling("ul").find("span", "bidsold").text.strip()
    print(url, bid)

Question 2

这是一个快速但肮脏的解决方案：

sed -n 's/^.*href="\([^"]*\)".*$/\1/p; s/^.*\(£[0-9.]*\).*$/\1/p' |
awk 'NR % 2{ printf "%s, ", $0; next} {print}'

它只是提取看起来像 href 的内容和看起来像价格的内容，希望您能获得 url 和价格的交替序列。然后连接连续的行以获得您想要的格式。

Answer

这是一个快速但肮脏的解决方案：

sed -n 's/^.*href="\([^"]*\)".*$/\1/p; s/^.*\(£[0-9.]*\).*$/\1/p' |
awk 'NR % 2{ printf "%s, ", $0; next} {print}'

它只是提取看起来像 href 的内容和看起来像价格的内容，希望您能获得 url 和价格的交替序列。然后连接连续的行以获得您想要的格式。

Bash 脚本从 Ebay HTML 页面中提取一些信息

答案1

答案2

相关内容