如果我使用正则表达式来查找精确的开始和结束标记(即使有回车标记),它只会找到开始和结束标记
正则表达式:
<del.*?</del>
但应该找到下面精确的开头<del>
和最后的精确的结尾</del>
。(例如,如果我们选择一个标签,它将突出显示精确的结束标签)
<del cite="FA12-38-5" id="FA12-38-5-d">
<h2 class="l00 r00 t04 b00 c y x">PART 2</h2>
<p class="l01 r00 t01 b00 j z x"><span class="o1">10. </span>Except <del cite="FA01-sched5-328" id="FA01-sched5-328-d">£2.50</del><ins cite="FA01-sched5-328" id="FA01-sched5-328-i">€3.50</ins>, but such dividends shall be assessed and charged under Case III of <a href="sec0018.html" class="i01">Schedule D</a>.</p></del>
答案1
Stackoverflow 上已经有针对此问题的答案:https://stackoverflow.com/questions/546433/regular-expression-to-match-balanced-parentheses
正则表达式不适合这个工作,因为您正在处理嵌套结构,即递归。
但有一个简单的算法可以做到这一点,我在这个答案回到上一个问题