我想使用awk
或类似于 Chrome 书签文件的匹配模式,并根据匹配,根据不同的字段分隔符剪切特定字段。
我附上了一张样本图片。我还没弄清楚如何附加为文件。
我想要文件夹名称(如果字符串H3
匹配)和 URL(如果HREF
遇到字符串)。
以下两个命令完成相应匹配的工作:
awk -F'[<>]' '/H3/{print $5}' bookmarks.htm
awk -F'"' '/HREF/{print $2}' bookmarks.html
我的目标是将上面的两个语句结合起来,使输出变为:
UNIX
url-1
url-2
OCE
url-3
url-4
url-5
ANDROID
url-6
url-7
我已经尝试过awk
“if”、“then”、“else”,但没有得出结论。
我该如何实现这一目标?还有比 更好的候选人吗awk
? python、perl 都很棒,但是,one-liner 是绝对的,因为编写完成这项工作的 shell 脚本是一项简单的任务。
答案1
这是处理 html 文件的错误方法sed/awk/… 很少有特殊的解析器,但作为临时替代
sed '
/\n/{P;d;}
/<H3/s/[><]/\n/4g
/HREF/s/"/\n/g
D
' bookmarks.htm
对于非 GNU 版本sed:
sed '
/\n/{P;d;} #if there is more then 1 line «P»rint 1st line then «d»elete all
/<\/H3/s//\n/ #replace «</H3» by «\n»ewline
/\n/s/">/\n/ #replace «">» by «\n»ewline if previous command is executed
/HREF/s/"/\n/g #put «\n»ewline» around url if «HREF» in line
D #«D»elete 1 first line, go to start
' bookmarks.htm
答案2
使用 xml/html 解析器/处理器有一些优点。X路径表达式是选择特定部分的标准方法。
xml + xmlstarlet + xpath
如果输入是格式正确的 xml,我们可以使用 xmlstarlet + xpath 表达式:
xmlstarlet sel -t -v '//h3|//a/@href' -nl bookmarks.html
html + xmllint:xml
如果输入只是有效的 html,我们可以将其转换为 xml(使用xmllint)并使用之前的:
xmllint -html -xmlout ex.html | xmlstarlet sel -t -v '//h3|//a/@href' -nl -
xmllint + xpath
我们可以直接使用 xmllint + xpath 表达式
xmllint -html -xpath '//h3/text()|//a/@href' bookmarks.html
...但是输出格式不一样...
答案3
最后一个答案:这次是一狮 perl
perl -nE 'say $1 if (/<h3.*?>(.*?)<\/h3>/i or /href="(.*?)"/i)' ex.html
(我相信基于 xml 解析器的解决方案更好,但是由于您有一个工具生成的文件,因此意外的数量应该不会很高)
答案4
现在我放弃了对俏皮话的需求,而是将其作为脚本来完成。
我不得不将此作为回应,因为评论太长了。不过,请随意回应。
这个脚本可以完成这项工作,但太慢了,任何人都可以加快速度或者建议一句俏皮话吗?
#!/bin/sh
file=$1
while IFS= read -r line
do
hdr=$(echo $line | awk -F'[<>]' '/H3/{print $5}')
url=$(echo $line | awk -F'"' '/HREF/{print $2}')
if [ ${url} ]; then
echo $url
elif [ ${hdr} ]; then
echo $hdr
fi
done <"$file"
这里是文件:(终于得到了)
<html xmlns="http://www.w3.org/1999/xhtml">
<body>
<h1>Bookmarks</h1>
<dl>
<dd>
<DT><H3 ADD_DATE="1484311924" LAST_MODIFIED="1485532328">UNIX</H3>
<dl>
<dt><a HREF="http://unix.stackexchange.com/questions/223182/how-to-replace-spaces-in-all-file-names-with-underscore-in-linux-using-shell-scr" add_date="1484311897">url-1</a></dt>
<dt><a HREF="http://unix.stackexchange.com/questions/81349/how-do-i-use-find-when-the-filename-contains-spaces" add_date="1484738308">url-2</a></dt>
</dl>
</dd>
<dd>
<DT><H3 ADD_DATE="1486550854" LAST_MODIFIED="1487228526">OCE</H3>
<dl>
<dt><a HREF="http://www.oraclecertificationprep.com/apex/f?p=OCPSG%3AEXAM_DETAILS%3A%3A%3ANO%3A%3AP2_EXAM%3A1Z0-061" add_date="1486550866">url-3</a></dt>
<dt><a HREF="http://education.oracle.com/pls/web_prod-plq-dad/db_pages.getpage?page_id=303&p_certName=SQ1Z0_047" add_date="1486550898">url-4</a></dt>
<dt><a HREF="https://www.quora.com/How-do-you-prepare-for-an-Oracle-Database-SQL-exam" add_date="1486550950">url-5</a></dt>
</dl>
</dd>
<dd>
<DT><H3 ADD_DATE="1487084050" LAST_MODIFIED="1487228595">ANDROID</H3>
<dl>
<dt><a HREF="https://material.io/guidelines/style/color.html#" add_date="1487228526">url-6</a></dt>
<dt><a HREF="https://developer.android.com/index.html" add_date="1487228539">url-7</a></dt>
</dl>
</dd>
</dl>
</body>
</html>