可以使用 wget 命令从网站提取特定数据吗?例如,从 www.sportscore.com 提取“cubs score”?如果可以,推荐的语法是什么?
答案1
wget
(或者curl
,就此而言)无法做到这一点,但通常的做法是使用另一个工具(最好是能够理解 HTML 的工具)来获取页面并提取相关部分。例如,要从 BBC 获取英超联赛表数据,我会这样做:
curl http://www.bbc.com/sport/football/tables -Ls |
pup '.gel-long-primer tr td:nth-child(3), .gel-long-primer tr td:nth-child(10), .gel-long-primer tr td:nth-child(11) text{}'
(它让我得到球队名称、净胜球和分数,然后我使用awk
等方法对它们进行处理,创建了一个 Cann 表。)
检查页面源代码,查看您感兴趣的分数的 HTML 元素是否具有识别特征(如id
或name
属性),或者是否与可以通过其他方式过滤的元素相关,然后使用等从或pup
下载的数据中获取该元素。您提到的网站无法打开,因此我无法提供帮助。wget
curl