正则表达式:查找链接上不包含此特定单词的 HTML 页面

正则表达式:查找链接上不包含此特定单词的 HTML 页面

我在 3000 多个 HTML 页面上有以下两行代码:

<link rel="canonical" href="https://mywebsite.com/hi/about.html" />

<link rel="canonical" href="https://mywebsite.com/about.html" />

hi因此,我想用正则表达式找到所有包含链接中不包含该单词的行的页面/hi/

答案1

如果/hi/总是在之后,https://mywebsite.com您可以使用负面前瞻以确保排除这些匹配项。在这种情况下,

<link rel="canonical" href="https:\/\/mywebsite\.com\/(?!hi\/)

可能对你有用(演示)。第一部分只是文字匹配(如果我没记错的话,反斜杠是转义所必需的),并且是(?!hi\/)负向前瞻:它确保hi\/不会发生。但是 Regex101 在解释正则表达式方面比我做得更好。

(我假设你熟悉 Notepad++ 的批量搜索功能,但如果不熟悉,此链接可能会有帮助。

相关内容