我有一个包含很多这样的行的文件
/item/pubDate=2014 年 2 月 23 日星期日 00:55:04 +010
如果我执行这个
echo "/item/pubDate=Sun, 23 Feb 2014 00:55:04 +010" | grep -Po "(?<=\=).*"
Sun, 23 Feb 2014 00:55:04 +010
我得到了正确的日期(全部在一行中)。现在我想尝试使用 xml 文件中的大量日期。我用这个,没问题。
xml2 < date_list | egrep "pubDate" | grep -Po "(?<=\=).*"
Fri, 22 Jan 2016 17:56:29 +0100
Sun, 13 Dec 2015 18:33:02 +0100
Wed, 18 Nov 2015 15:27:43 +0100
...
但现在我想在 bash 程序中使用日期,我得到了这个输出
for fecha in $(xml2 < podcast | egrep "pubDate" | grep -Po "(?<=\=).*"); do echo $fecha; done
Fri,
22
Jan
2016
17:56:29
+0100
Sun,
13
Dec
2015
18:33:02
+0100
Wed,
18
Nov
2015
15:27:43
+0100
我希望在一行中(在变量 fecha 中)输出日期,就像第一个和第二个示例一样,但我不知道该怎么做。
答案1
这样做:
while IFS= read -r fecha; do
echo $fecha
done < <(xml2 < podcast | egrep "pubDate" | grep -Po "(?<=\=).*")
Bash 将通过内部字段分隔符 ( ) 中的字符分隔要循环的“单词” $IFS
。您可以通过IFS
在命令执行期间设置为空来暂时禁用此行为read
。上面的模式总是逐行循环。
<(command)
使命令的输出看起来像一个真实的文件,然后我们将其重定向到read
循环中。
$ while IFS= read -r line; do echo $line; done < <(cat ./test.input)
Fri, 22 Jan 2016 17:56:29 +0100
Sun, 13 Dec 2015 18:33:02 +0100
Wed, 18 Nov 2015 15:27:43 +0100
答案2
xml2 < date_list | egrep "pubDate" | grep -Po "(?<=\=).*" \
| while read L
do
echo $L
done
读除非有要求,否则不会断行。 :-)
然而,使用正则表达式处理 XML 却是一场枪战。构造有效的 XML 非常容易,但上述管道要么会错过,要么会错误地捕获。
如果您处理大量 XML,您确实希望熟悉 SAX 解析器。