浏览时可以在 URL 中使用正则表达式吗?

浏览时可以在 URL 中使用正则表达式吗?

我知道谷歌 Dorks使用高级运算符在网络上搜索关键字,而 Google Dorks 无论如何都不是 Regex。

出于好奇,我尝试在各种网站上的图片 URL 中添加通配符,但都没有成功。大多数都显示各种 HTTP 错误代码,只有 2-3 个例外,重定向到网站内的其他页面。

一些不起作用的例子:

  • 正在搜索 PDF。已找到404 : Page Not Found

PDF 搜索

  • 正在搜索图片。已找到500 : Internal Server Error

图片正则搜索

  • 搜索网站上的所有 HTML 页面。仅错误页面

HTML 页面搜索

  • Youtube 将字符转换为安全十六进制字符。

Youtube 搜索

一个有效的例子(不知道如何):

Windows 标记问题

Linux 标记问题

查看Question Tagged页面右侧的部分可查看该词的所有搜索lin*

如果问题太过详细,我很抱歉,但我觉得举几个例子是合适的。因此,我在这里总结一下我的问题:

  1. 浏览时可以在 URL 中以任何方式使用正则表达式吗?

  2. 如果是的话,使用它们的规则或方法是什么?

  3. 还,用途部分在维基百科的正则表达式页面下引用此内容:

    虽然正则表达式在互联网搜索引擎上很有用,但在整个数据库中处理它们可能会消耗过多的计算机资源,具体取决于正则表达式的复杂性和设计。虽然在许多情况下系统管理员可以在内部运行基于正则表达式的查询,但大多数搜索引擎并不向公众提供正则表达式支持。值得注意的例外:Google 代码搜索、Exalead。Google 代码搜索已于 2012 年 1 月关闭。[39] 它使用三元组索引来加速查询。[40]

    那么,我们是不是可以在搜索引擎上进行正则表达式搜索,但不能在网页上进行正则表达式搜索?

答案1

一般来说,不是。(通配符和正则表达式也不是一回事。)

每个网站完全自行决定拥有路径和查询应如何解释。路径可能对应于实际文件,也可能映射到抽象资源,如“问题”或“帖子”。(例如,SuperUser 实际上没有一个名为“questions充满编号子文件夹”的文件夹 - 路径只是告诉它要生成什么响应。)

这也意味着每个网站都自行决定是否支持通配符(或正则表达式,或任何其他过滤方法)。通常,添加此功能需要对网站进行额外的编程。

正如您所发现的,超级用户确实实现了用于标签浏览的通配符——它对于查找所有与 Windows 相关的问题很有用(并且可能比分层标签更容易实现)。

但是,例如,YouTube 视频 ID 是完全随机的,因此尝试列出所有 ID 以 或任何其他前缀开头的视频毫无意义RgK...。所以 YouTube 没有实现这一点。

“普通”网络服务器,仅提供普通的 .html 文件,可以实施此功能,因为他们通常已经拥有自动目录列表。但是,许多网站所有者并不希望这样做——例如,他们可能有只有少数人知道的“未列出”页面。

(Apache httpd 中有一个类似的功能,可让您获取完整的目录列表即使index.html 文件存在。但默认情况下必须禁用它,因为许多人实际上依赖 index.html 作为禁用这些列表的可靠方法。)

相关内容