我尝试了很多方法,但由于正则表达式的贪婪性质,仍然无法弄清楚
abc = 'dfbafbd<a href="#Free_Calling_Best_Apps">Free Calling Best Apps</a>sbrwsggsfzbs<a></a>abc
我的正则表达式
abc1 = re.sub(r'<a.+\/a>',' ',abc)
输出 = 'dfbafbd abc'
所需输出 = 'dfbafbd sbrwsggsfzbs abc'
答案1
让你的正则表达式不贪婪:
abc1 = re.sub(r'<a.+?/a>',' ',abc)
# here __^
HTML 和正则表达式不是好朋友。使用解析器,它更简单、更快,而且更易于维护。