从 HTML 中提取文本

从 HTML 中提取文本

我有这一页。我想从 html 页面中提取文本,特别是表格标题 ( th) 和表格数据 ( td)。例如:

国家:美国(US),州: 加利福尼亚州其中th= 国家/地区且td= 美国 (US)。

这是我能得到的最接近的结果,使用xidel

xidel -A  "Mozilla/5.0" http://www.ip-tracker.org/locator/ip-lookup.php ip=8.8.8.8 -e 'th[1] td[1]'

如何提取html 页面中的所有条目th和表格条目?td

相关内容