如何使用查找/替换通配符/正则表达式从 MS Word 2010 文档中删除 HTML?

如何使用查找/替换通配符/正则表达式从 MS Word 2010 文档中删除 HTML?

我找到了一个网站来帮助我选择域名。我有一份候选名单,但无法导出,但我需要先与其他团队成员分享这份名单。它也不让我复制粘贴域名列表。

凭借我有限的知识,我单击了检查元素,将其编辑为 HTML,复制并粘贴到 MS Word 2010 中。然后,我得到了一堆如下所示的 HTML:

<div id="cartList">
<div id="cartdomain_mydomain1.com" class="wordDiv">
    <img class="deleteImage" src="/images/trans.gif">
    <button class="buyButton">Buy</button>
    <div title="mydomain1.com">mydomain1.com</div>
</div>
<div id="cartdomain_mydomain2.com" class="wordDiv">
    <img class="deleteImage" src="/images/trans.gif">
    <button class="buyButton">Buy</button>
    <div title="mydomain2.com">mydomain2.com</div>
</div>

我如何删除所有 HTML 代码以便只留下纯文本列表中的 mydomain1.com、mydomain2.com?

答案1

确保“更多 >>“面板展开,并选择”使用通配符“。然后您可以使用以下表达式:

找什么\<div id="cartdomain?*\<div title="([!"]*)"?*\</div\>?*\</div\>

用。。。来代替\1

单击“全部替换”时,您将只剩下第一行(<div id="cartList">),后面跟着“标题”参数中的所有内容。

MS2010 不使用标准正则表达式语法,并且非常有限。表达式的工作方式是:

  • <>是特殊分隔符,必须使用\
  • ?*基本上相当于.*?:它以非贪婪的方式匹配任意数量的任意字符
  • 括号用于定义捕获块,在字段\1中称为With:
  • [!"]*表示“任意数量的非双引号字符”

相关内容