正则表达式解析文本中的 URL

Question

如果您不想在匹配中包含尾随空格，请使用负向前瞻：

[a-z]+[:.].*?(?=\s)

在您的示例中，这将匹配：

regexbuddy.com
www.regexbuddy.com
http://regexbuddy.com
http://www.regexbuddy.com
http://www.regexbuddy.com/
http://www.regexbuddy.com/index.html
http://www.regexbuddy.com/index.html?source=library
http://www.regexbuddy.com/download.html.
www.domain.com/quoted
http://10.2.2.1.2/ttxx/txt/gg

为了进一步匹配仅http或https和可选，www请使用类似以下内容：

(https?):\/\/(www\.)?[a-z0-9\.:].*?(?=\s)

以下是John Gruber 的正则表达式检查看起来像 URL 的内容，这在你的情况下似乎很有效：

(?i)\b((?:[a-z][\w-]+:(?:\/{1,3}|[a-z0-9%])|www\d{0,3}[.]|[a-z0-9.\-]+[.][a-z]{2,4}\/)(?:[^\s()<>]+|\(([^\s()<>]+|(\([^\s()<>]+\)))*\))+(?:\(([^\s()<>]+|(\([^\s()<>]+\)))*\)|[^\s`!()\[\]{};:'".,<>?«»“”‘’]))

但老实说，所有这些方法迟早都只会让你得到错误匹配。如果你需要一个正则表达式来解析 URL，请参阅这个 Stack Overflow 问题：检查字符串是否为有效 URL 的最佳正则表达式是什么？

Answer 1