只是为了编辑维基..
所以我有这个输入[来自大文本]:
TEXT TEXT BLA-BLA RANDOMSTRINGS BLA-BLA
TEXT TEXT BLA-BLA RANDOMSTRINGS BLA-BLA
TEXT TEXT <a href="http://xy.com">XY</a> RANDOMSTRINGS BLA-BLA
TEXT TEXT BLA-BLA RANDOMSTRINGS BLA-BLA
TEXT TEXT BLA-BLA RANDOMSTRINGS BLA-BLA
我想要这个输出:
TEXT TEXT BLA-BLA RANDOMSTRINGS BLA-BLA
TEXT TEXT BLA-BLA RANDOMSTRINGS BLA-BLA
TEXT TEXT [http://xy.com XY] RANDOMSTRINGS BLA-BLA
TEXT TEXT BLA-BLA RANDOMSTRINGS BLA-BLA
TEXT TEXT BLA-BLA RANDOMSTRINGS BLA-BLA
“http://xy.com”可以是例如:“https://xy.com”或“http://www.xy.com”或“https://www.xy.com”等。
答案1
无需尝试检测麻烦的输入(例如包含 的链接或文本[]
),只需捕获"…"
和 之间的所有内容>…</a>
:
sed -e 's!<a *href *= *"\([^"]*\)" *>\([^<>]*\)</[Aa]>![\1 \2]!g'