HAproxy 给我的正则表达式替换带来了问题，这是一个错误还是我做错了什么？

Question

我在评论中提出的这个建议似乎几乎是正确的：

reqrep ^([^\ :]+)(\ ?/.+/material/)(.+)/(.+)(\ .+)$ \1\2\3\4%2f\5

事实上，我把它放在了\4错误的一边%2f。我还错误地将第二个捕获组开头的空格设为可选，这虽然不会破坏正则表达式，但从技术上讲并不正确。

这是正确的形式：

reqrep ^([^\ :]+)(\ /.+/material/)(.+)/(.+)(\ .+)$ \1\2\3%2f\4\5

这就是问题所在reqrep——你直接调整 HTTP 请求的第一行。功能强大，但很乏味。

具体来说：

^始终将你的图案固定于行首。

([^\ :]+)这是 HTTP 动词（GET、POST等）。它不能包含空格，也不能包含冒号。这是捕获组 1。

(\ /.+/material/)动词后面必须跟一个空格、前导斜杠（HAProxy 正则表达式中的正斜杠不需要反斜杠转义）、一个或多个字符，然后是 /material/...这是捕获组 2。

(.+)我们想要拆分的第一部分/是捕获组 3......实际上，([^/]+)虽然大多数潜在的不匹配都被下面第 5 组所需的空间所阻止，但这样写会更正确。

/我们要消除的斜线

(.+)URL 中后面的部分/是捕获组 4

(\ .+)一个空格，后跟 1 个或多个字符，将HTTP/1.x作为捕获组 5 在请求行的末尾捕获。

$锚定在线的末端。

然后将它们重新组合在一起。

\1\2\3%2f\4\5

HAProxy 1.6 更优雅地处理了这个问题，它使用内置的 Lua 解释器以及一个名为的转换器regsub()（虽然它非常简单——只有替换，没有捕获组，但它非常适合拆分字符串）和用户定义的变量，您可以在处理请求时“存储”小数据块。它还允许您使用http-request set-path并具有一个path提取功能，可以独立于 URL 的其余部分读取和写入路径，而无需直接使用正则表达式调整 HTTP 请求缓冲区。大多数或所有这些功能都不在 1.5 中。

Answer 1