我可以使用 grep 命令从文件中提取完整日期吗？

Question 1

不要使用grep或regex解析HTML/XML您不能也不能使用旨在处理原始文本行的工具来解析任何结构化文本（例如 XML/HTML）。如果需要处理 XML/HTML，请使用 XML/HTML 解析器。绝大多数语言都内置了对解析 XML 的支持，并且有专门的工具，例如xidel、xmlstarlet或者xmllint如果您需要从命令行 shell 快速进行操作... 如果您无法访问适当的工具，切勿接受工作。

最先进的命令行工具是xidel。语法比or更直观/现代（并且支持XPath3其他工具受限制的情况XPath1），请参阅：xmlstarletxmllint

xidel -e '//item/@start' -s file.xml
20231010073000 +0100

-e用于XPath e表达
-s对于silent（无状态信息）

查询语言XPath在许多情况下对于解析 XML/HTML 非常有用。

XPath教程：

https://developer.mozilla.org/en-US/docs/Web/XPath
http://www.w3schools.com/xpath/xpath_functions.asp
http://stackoverflow.com/tags/xpath/info
https://topswagcode.com/xpath/（互动XPath游戏，当你有基础并想互动练习时）

Answer

不要使用grep或regex解析HTML/XML您不能也不能使用旨在处理原始文本行的工具来解析任何结构化文本（例如 XML/HTML）。如果需要处理 XML/HTML，请使用 XML/HTML 解析器。绝大多数语言都内置了对解析 XML 的支持，并且有专门的工具，例如xidel、xmlstarlet或者xmllint如果您需要从命令行 shell 快速进行操作... 如果您无法访问适当的工具，切勿接受工作。

最先进的命令行工具是xidel。语法比or更直观/现代（并且支持XPath3其他工具受限制的情况XPath1），请参阅：xmlstarletxmllint

xidel -e '//item/@start' -s file.xml
20231010073000 +0100

-e用于XPath e表达
-s对于silent（无状态信息）

查询语言XPath在许多情况下对于解析 XML/HTML 非常有用。

XPath教程：

https://developer.mozilla.org/en-US/docs/Web/XPath
http://www.w3schools.com/xpath/xpath_functions.asp
http://stackoverflow.com/tags/xpath/info
https://topswagcode.com/xpath/（互动XPath游戏，当你有基础并想互动练习时）

Question 2

问题出在你的循环中：默认情况下，它会分割$IFS（因此，默认值为：任何、或字符$IFS序列，并且它还会丢弃第一个和最后一个）spacetabnewline

有很多方法可以解决这个问题，例如：

while IFS= read -r StartDate; do
    echo "$StartDate"
done < <(grep -Eo -- 'start="[0-9]{14} [+-][0-9]{4}"' "$filepath")

（我使用： loop < <( command generating the input )形式而不是command generating the input | loop形式：，以便循环位于当前 shell 中，而不是像未启用该选项时 bash shell 中的情况那样位于子 shell 中lastpipe。这并不总是必要的，但对于例如，如果您想$StartDate在循环后查看的最新值：如果在子 shell 中，则该值将在子 shell 末尾消失，并且无法在当前 shell 中检索。）

Answer

问题出在你的循环中：默认情况下，它会分割$IFS（因此，默认值为：任何、或字符$IFS序列，并且它还会丢弃第一个和最后一个）spacetabnewline

有很多方法可以解决这个问题，例如：

while IFS= read -r StartDate; do
    echo "$StartDate"
done < <(grep -Eo -- 'start="[0-9]{14} [+-][0-9]{4}"' "$filepath")

（我使用： loop < <( command generating the input )形式而不是command generating the input | loop形式：，以便循环位于当前 shell 中，而不是像未启用该选项时 bash shell 中的情况那样位于子 shell 中lastpipe。这并不总是必要的，但对于例如，如果您想$StartDate在循环后查看的最新值：如果在子 shell 中，则该值将在子 shell 末尾消失，并且无法在当前 shell 中检索。）

Question 3

由于您正在处理 XML，因此我们实际上应该使用 XML 解析器来获取属性的值。

下面展示了如何使用以下命令从整个文档中的start任意节点获取属性值：itemxmlstarlet

$ xmlstarlet select --template --value-of '//item/@start' --nl file
20231010073000 +0100

或者，使用缩写选项名称：

$ xmlstarlet sel -t -v '//item/@start' -n file
20231010073000 +0100

如果有多个item节点，并且您只需要start第一个节点的属性值，请//item[1]/@start在 XPath 查询中使用。

然后，您可以使用标准命令替换将结果传输到变量中：

start=$( xmlstarlet sel -t -v '//item[1]/@start' file )

（我-n从上面的命令中删除了该选项，因为它不再需要。它在输出的末尾添加了一个换行符，但命令替换会删除它。）

bash或者，您可以使用以下命令将它们全部读入数组readarray：

readarray -t startarray < <(
    xmlstarlet sel -t -v '//item/@start' -n file
)

然后循环它 ( ) 或直接for start in "${startarray[@]}"; do ...; done循环它的输出：xmlstarlet

while IFS= read -r start; do
   # ...
done < <( xmlstarlet ...as above... )

Answer