使用 Bash 将 XML 数据拆分为变量

Question 1

xmllint从 XML 文档中提取信息毫无用处。您可能需要考虑xmlstarletor xml_grep（来自perl的 XML::Twig）或xml2。

使用xmllint，您仍然可以一次提取一个字符串：

VAR1=$(printf '%s\n' "$XML" |
  xmllint --xpath '/download-area/files/file[1]/url/text()' -)
VAR2=$(printf '%s\n' "$XML" |
  xmllint --xpath '/download-area/files/file[2]/url/text()' -)

对于像这里这样不包含换行符的值，您可以使用bash'sreadarray作为：

readarray -t var < <(
  xmlstarlet sel -t -v /download-area/files/file/url  <<< "$XML")

或者

readarray -t var < <(
  xml2 <<< "$XML" | sed -n 's|^/download-area/files/file/url=||p')

或者：

readarray -t var < <(
  xml_grep --text_only /download-area/files/file/url <<< "$URL")

Answer

xmllint从 XML 文档中提取信息毫无用处。您可能需要考虑xmlstarletor xml_grep（来自perl的 XML::Twig）或xml2。

使用xmllint，您仍然可以一次提取一个字符串：

VAR1=$(printf '%s\n' "$XML" |
  xmllint --xpath '/download-area/files/file[1]/url/text()' -)
VAR2=$(printf '%s\n' "$XML" |
  xmllint --xpath '/download-area/files/file[2]/url/text()' -)

对于像这里这样不包含换行符的值，您可以使用bash'sreadarray作为：

readarray -t var < <(
  xmlstarlet sel -t -v /download-area/files/file/url  <<< "$XML")

或者

readarray -t var < <(
  xml2 <<< "$XML" | sed -n 's|^/download-area/files/file/url=||p')

或者：

readarray -t var < <(
  xml_grep --text_only /download-area/files/file/url <<< "$URL")

Question 2

尝试类似的方法：

declate -a url_array
url_array=(`echo $XML | grep -o "http.*zip" | tr '\n' ' '`)

Answer

尝试类似的方法：

declate -a url_array
url_array=(`echo $XML | grep -o "http.*zip" | tr '\n' ' '`)

Question 3

xmllint不是一个用于分割 XML 的好工具。为了解决你的两个问题（解析 XML，并确保唯一的 URL，我认为？）以一种稳健的方式使用bash和xmlstarlet：

#!/bin/bash
XML='<?xml version="1.0" encoding="UTF-8"?>
<download-area>
  <files>
    <file>
      <url>https://google.com/411/201701_01_01.zip</url>
    </file>
    <file>
      <url>https://google.com/411/201701_01_02.zip</url>
    </file>
  </files>
</download-area>'

# IFS=$'\n'   ## required if URLs contains spaces
urls=( $(xml select -t -m  "/download-area/files/file" -v url -nl  <<< $XML ) )

declare -A unique  # associative array
for uu in ${urls[*]}; do let unique[$uu]++; done

for uu in "${!unique[@]}"; do
  printf "URL is %s\n" ${uu}
done

这xmlstarlet在select模式中使用，模板 ( -t) 与 xpath 匹配 ( )，从中选择节点的-m值 ( ) 并在每个值后面添加换行符 ( )。（xmlstarlet 比这更灵活，您可以多次使用并在需要的地方添加任意文本。）-vurl-nl-v-o

这也使用了<<<保存echo/pipe 的重定向。

URL 存储在普通索引数组中urls。接下来，循环数组以将 URL 作为键存储在关联数组— 这解决了唯一性问题（并且出现次数保留为每个条目的值）。

如果您不熟悉 bash 的关联数组，第二个循环需要一些额外的解释。该表达式"${unique[@]}"扩展了所有价值观数组的，这使用"${!unique[@]}"它来扩展所有索引对于数组，如果您使用以下命令转储数组数据，这应该有意义declare -p unique：

declare -A unique=([https://google.com/411/201701_01_01.zip]="1" 
                   [https://google.com/411/201701_01_02.zip]="1" )

您甚至可以在一个循环中完成所有这一切，尽管这可能有点难以理解：

while read line; do
  [[ -n "$line" ]] && let unique[$line]++ 
done < <(xml sel -t -m  "/download-area/files/file" -v url  -nl <<< $XML)

XMLstarlet 可以安装为xml或者xmlstarlet

Answer