尝试在 nginx 中实现以下行为
使用浏览器时每个 IP 的默认速率限制为 1r/s。bing 和 google 蜘蛛的速率限制为 10r/s。拒绝恶意机器人。
不幸的是,谷歌没有发布 googlebot 的 IP 地址,所以我只能使用 useragent。
到目前为止,情况已经接近:
http {
# Rate limits
map $http_user_agent $uatype {
default 'user';
~*(google|bing|msnbot) 'okbot';
~*(slurp|nastybot) 'badbot';
}
limit_req_zone $binary_remote_addr zone=one:10m rate=1r/s;
limit_req_zone $binary_remote_addr zone=two:10m rate=10r/s;
...
server {
...
location / {
if ($uatype == 'badbot) {
return 403;
}
limit_req zone=one burst=5 nodelay;
if ($uatype != 'user') {
limit_req zone=two burst=10 nodelay;
}
...
}
...
}
}
但是——“如果”不允许这样做。
$ nginx -t
nginx:[emerg] /etc/nginx/nginx.conf 中不允许使用“limit_req”指令 nginx:配置文件 /etc/nginx/nginx.conf 测试失败
nginx 论坛上有很多未经测试的建议,大多数甚至都无法通过配置测试。
一个看起来很有希望的是Nginx 通过引荐来源限制速率?-- 该版本的缺点是,所有配置都会针对每个不同的限制重复(我有很多重写规则)
有谁得到好东西了吗?
答案1
不幸的是,您无法通过这种方式实现动态化,限制请求模块不支持这种方式。
您找到的链接可能是实现此目的的唯一方法。使用include
指令“避免”重复配置。
但是,如果第三方爬虫突然冒充好机器人用户代理 ?
答案2
今天我能够在用户代理基础上实现速率限制;试试这个:
map $http_user_agent $bad_bot {
default 0;
(foo|bar) 1;
}
map $http_user_agent $nice_bot {
default "";
(baz|qux) 1;
}
limit_req_zone $nice_bot zone=one:10m rate=1r/s;
limit_req_status 429;
server {
...
location / {
limit_req zone=one nodelay;
if ($badbot) {
return 403;
}
...
}
}