你好,我有一张直接从数据库导出的 Excel 表。这包括各种字符串,其中一些是 HTML 标签。我想删除所有链接标签示例
(<a href="mylink" target="_blank">
但保持所有其他字符串不变。我尝试使用查找和替换来执行此操作,但我无法找到可以执行此操作且在 excel 中工作的正则表达式。我搜索了整个网络,但找不到解决方案。
如果我这样做
<a href*>
它会删除电子表格的几乎所有内容,因为它会转到它能找到的最后一个结束标记。有没有办法重新进行搜索,以便找到下一个结束标记而不是最后一个结束标记?
答案1
我所知道的最简单的、好方法是使用 Lynx(旧的文本模式网络浏览器):
lynx --dump URL_or_HTML-file
——但是,您需要找到一种在 Windows 上运行它的方法(例如 cygwin 或 WSL)。
哦...还有一件事:你应该意识到;你所要求的本质上是一个功能齐全的网络浏览器。
lynx 就是这样,尽管它有其固有的局限性和缺点。
例子:
$ lynx --dump www.google.se 搜索 [1]图片 [2]地图 [3]Play [4]YouTube [5]新闻 [6]Gmail [7]云端硬盘 [8]梅尔 » [9]网络史学| [10]安装 | [11]登录 谷歌 _______________________________________________________ 在 Google 搜索 Jag har tur [12] 高级搜索 [13] 公共关系 Google 页面: [14]English [15]Google 公告 [16]前台服务 [17]+Google [18]谷歌 [19]Google.com © 2019 - [20]Sekretess - [21]Villkor 参考 1.http://www.google.se/imghp?hl=sv&tab=wi 2.http://maps.google.se/maps?hl=sv&tab=wl 3. https://play.google.com/?hl=sv&tab=w8 4.http://www.youtube.com/?gl=SE&tab=w1 5.http://news.google.se/nwshp?hl=sv&tab=wn 6. https://mail.google.com/mail/?tab=wm 7. https://drive.google.com/?tab=wo 8. https://www.google.se/intl/sv/about/products?tab=wh 9.http://www.google.se/history/optout?hl=sv 10.http://www.google.se/preferences?hl=sv 11. https://accounts.google.com/ServiceLogin?hl=sv&passive=true&continue=http://www.google.se/ 12. http://www.google.se/advanced_search?hl=sv&authuser=0 13. http://www.google.se/language_tools?hl=sv&authuser=0 14. http://www.google.se/setprefs?sig=0_aqHPilDIYLLsVqHCw93WtOpJW0k=&hl=en&source=homepage&sa=X&ved=0ahUKEwifvrHulZHgAhXGjywKHVziBaIQ2ZgBCAQ 15. http://www.google.se/intl/sv/ads/ 16. http://www.google.se/intl/sv/services/ 17. https://plus.google.com/103822168634868962761 18.http://www.google.se/intl/sv/about.html 19.http://www.google.se/setprefdomain?prefdom=US&sig=K_KnzY40g4UTDMelz-_ON-EEbQQGM= 20. http://www.google.se/intl/sv/policies/privacy/ 21.http://www.google.se/intl/sv/policies/terms/