正则表达式删除 HTML 标签和这些标签之间的数据

正则表达式删除 HTML 标签和这些标签之间的数据

我尝试了很多方法,但由于正则表达式的贪婪性质,仍然无法弄清楚

abc = 'dfbafbd<a href="#Free_Calling_Best_Apps">Free Calling Best Apps</a>sbrwsggsfzbs<a></a>abc

我的正则表达式 abc1 = re.sub(r'<a.+\/a>',' ',abc)

输出 = 'dfbafbd abc'

所需输出 = 'dfbafbd sbrwsggsfzbs abc'

答案1

让你的正则表达式不贪婪:

abc1 = re.sub(r'<a.+?/a>',' ',abc)
#            here __^

使用正则表达式解析 HTML 是一项艰巨的工作

HTML 和正则表达式不是好朋友。使用解析器,它更简单、更快,而且更易于维护。

相关内容