用于curl获取、lynx解析和awk提取

Question 1

用于`curl`获取、`lynx`解析和`awk`提取

请不要用sed,grep等解析 XML/HTML。HTML 是上下文无关的，但sed和朋友只是常规的。¹

url='https://usa.visa.com/support/consumer/travel-support/exchange-rate-calculator.html/?fromCurr=USD&toCurr=EUR&fee=0&exchangedate=02/05/2017'
user_agent= 'Mozilla/5.0 (X11; Linux x86_64; rv:57.0) Gecko/20100101 Firefox/57.0'

curl -sA "${user_agent}" "${url}"  \
| lynx -stdin -dump                \
| awk '/1 EUR/{ print $4 }'

您需要某种 HTML 解析器来可靠地提取内容。在这里，我使用lynx（基于文本的网络浏览器），但也存在更轻的替代方案。

在这里，curl检索页面，然后lynx解析它并转储文本表示。搜索字符串的/1 EUR/原因，只找到行：awk1 EUR

   1 EUR = 1.079992 USD

然后{ print $4 }让它打印第四列，1.079992。

替代解决方案不带`curl`

由于我选择的 HTML 解析器是lynx，curl所以没有必要：

url='https://usa.visa.com/support/consumer/travel-support/exchange-rate-calculator.html/?fromCurr=USD&toCurr=EUR&fee=0&exchangedate=02/05/2017'
user_agent= 'Mozilla/5.0 (X11; Linux x86_64; rv:57.0) Gecko/20100101 Firefox/57.0'

lynx -useragent="${user_agent}" -dump "${url}"  \
| awk '/1 EUR/{ print $4 }'

¹ A pcre（grep -P在某些实现中）可以描述一些上下文无关甚至上下文相关的字符串集，但不是全部。

编辑于2017-12-23添加用户代理字符串（假装是 Firefox），因为该网站当前阻止curl和lynx。

Answer

用于`curl`获取、`lynx`解析和`awk`提取

请不要用sed,grep等解析 XML/HTML。HTML 是上下文无关的，但sed和朋友只是常规的。¹

url='https://usa.visa.com/support/consumer/travel-support/exchange-rate-calculator.html/?fromCurr=USD&toCurr=EUR&fee=0&exchangedate=02/05/2017'
user_agent= 'Mozilla/5.0 (X11; Linux x86_64; rv:57.0) Gecko/20100101 Firefox/57.0'

curl -sA "${user_agent}" "${url}"  \
| lynx -stdin -dump                \
| awk '/1 EUR/{ print $4 }'

您需要某种 HTML 解析器来可靠地提取内容。在这里，我使用lynx（基于文本的网络浏览器），但也存在更轻的替代方案。

在这里，curl检索页面，然后lynx解析它并转储文本表示。搜索字符串的/1 EUR/原因，只找到行：awk1 EUR

   1 EUR = 1.079992 USD

然后{ print $4 }让它打印第四列，1.079992。

替代解决方案不带`curl`

由于我选择的 HTML 解析器是lynx，curl所以没有必要：

url='https://usa.visa.com/support/consumer/travel-support/exchange-rate-calculator.html/?fromCurr=USD&toCurr=EUR&fee=0&exchangedate=02/05/2017'
user_agent= 'Mozilla/5.0 (X11; Linux x86_64; rv:57.0) Gecko/20100101 Firefox/57.0'

lynx -useragent="${user_agent}" -dump "${url}"  \
| awk '/1 EUR/{ print $4 }'

¹ A pcre（grep -P在某些实现中）可以描述一些上下文无关甚至上下文相关的字符串集，但不是全部。

编辑于2017-12-23添加用户代理字符串（假装是 Firefox），因为该网站当前阻止curl和lynx。

Question 2

另一个解决方案：html2text

curl -s 'https://usa.visa.com/support/consumer/travel-support/exchange-rate-calculator.html/?fromCurr=USD&toCurr=EUR&fee=0&exchangedate=2/12/2017' \
| html2text \
| grep '1 Euro' \
| awk '{ print $4 }'

Answer

另一个解决方案：html2text

curl -s 'https://usa.visa.com/support/consumer/travel-support/exchange-rate-calculator.html/?fromCurr=USD&toCurr=EUR&fee=0&exchangedate=2/12/2017' \
| html2text \
| grep '1 Euro' \
| awk '{ print $4 }'

Question 3

建议：使用 xml/html 感知工具：

xmllint

curl "$url" | xmllint -html -xpath '//span/strong[2]/text()' -

希德尔

curl "$url" | xidel -s -e "//span/strong[2]" -

甚至

xidel -e "/span/strong[2]" $url

Answer

建议：使用 xml/html 感知工具：

xmllint

curl "$url" | xmllint -html -xpath '//span/strong[2]/text()' -

希德尔

curl "$url" | xidel -s -e "//span/strong[2]" -

甚至

xidel -e "/span/strong[2]" $url

Question 4

我会使用pandoc转换为json，然后python提取数据。它将比grep.

像这样，它通过 stdin 获取输入：

pandoc  -f html -t json | python3 -c '
import json
import sys

output=[]
data = json.load(sys.stdin)

for i in data[1][0]["c"]:
    if i["t"]=="Strong":
        output.append((i["c"]))

print(output[2][0]["c"])
'

Answer

我会使用pandoc转换为json，然后python提取数据。它将比grep.

像这样，它通过 stdin 获取输入：

pandoc  -f html -t json | python3 -c '
import json
import sys

output=[]
data = json.load(sys.stdin)

for i in data[1][0]["c"]:
    if i["t"]=="Strong":
        output.append((i["c"]))

print(output[2][0]["c"])
'

用于curl获取、lynx解析和awk提取

答案1

用于`curl`获取、`lynx`解析和`awk`提取

替代解决方案不带`curl`

答案2

答案3

xmllint

希德尔

答案4

相关内容

答案1

用于curl获取、lynx解析和awk提取

替代解决方案不带curl

答案2

答案3

xmllint

希德尔

答案4

相关内容

用于`curl`获取、`lynx`解析和`awk`提取

替代解决方案不带`curl`