阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

简单介绍使用Nginx限制百度蜘蛛频繁抓取的问题

27次阅读
没有评论

共计 1302 个字符,预计需要花费 4 分钟才能阅读完成。

导读 这篇文章主要介绍了使用 Nginx 限制百度蜘蛛频繁抓取的问题, 百度蜘蛛对网站的抓取频率高和抓取量骤增导致服务器负载高,经常收到警告信息,每分钟允许百度蜘蛛抓取 200 次,超过频率限制的返回 503,对 Nginx 限制蜘蛛频繁抓取相关知识感兴趣的朋友一起看看吧

百度蜘蛛对网站的抓取频率高和抓取量骤增导致服务器负载高,经常收到警告信息。最终采用 nginx 的 ngx_http_limit_req_module 模块限制了百度蜘蛛的抓取频率。每分钟允许百度蜘蛛抓取 200 次,超过频率限制的返回 503。

limit_req_zone

语法: limit_req_zone $variable zone=name:size rate=rate;

默认值: none

配置段: http

设置一块共享内存限制域的参数,它可以用来保存键值的状态。它特别保存了当前超出请求的数量。键的值就是指定的变量(空值不会被计算)。

这里键值使用客户端的 agent,使用 $http_user_agent 变量。如果限制域的存储空间耗尽了,对于后续所有请求,服务器都会返回 503 (Service Temporarily Unavailable) 错误。

请求频率可以设置为每秒几次(r/s)。如果请求的频率不到每秒一次,你可以设置每分钟几次 (r/m)。比如每秒半次就是 30r/m。

全局配置 nginx.conf
limit_req_zone $ning_spider zone=ning_spider:10m rate=200r/m;
某个 server 中
if ($http_user_agent ~* "baiduspider|Googlebot") {set $ning_spider $http_user_agent;}
 limit_req zone=ning_spider burst=5 nodelay;

参数说明:

指令 linit_req_zone 中的 rate=200r/m 表示每分钟只能处理 200 个请求。

指令 limit_req 中的 burst=5 表示最大并发为 5。即同一时间只能同时处理 5 个请求。

指令 limit_req 中的 nodelay 表示当已经达到 burst 值时,再来新请求时,直接返回 503IF 部分用于判断是否是百度蜘蛛的 user agent。如果是,就对变量 $ning_spider 赋值。这样就做到了只对百度蜘蛛进行限制了。

测试,速率达不上可以同时开多个以下脚本测试

[root@localhost ~]# cat test.sh
#! /bin/bash  
sum=0;  
for i in {1..1000}  
do 
((sum = sum + i))  
curl -I -A "Baiduspider" http://www.hezongtianxia.com
curl -I -A "Sogou web spider" http://www.hezongtianxia.com
done 
echo $sum
tailf /home/wwwlog/access.log|grep 503

到此这篇关于使用 Nginx 限制百度蜘蛛频繁抓取 的文章就介绍到这了。

阿里云 2 核 2G 服务器 3M 带宽 61 元 1 年,有高配

腾讯云新客低至 82 元 / 年,老客户 99 元 / 年

代金券:在阿里云专用满减优惠券

正文完
星哥说事-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2024-07-25发表,共计1302字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中