阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

Linux系统入门学习:Nginx网络服务器上如何阻止特定用户代理(UA)

198次阅读
没有评论

共计 2772 个字符,预计需要花费 7 分钟才能阅读完成。

问题:我注意到有一些机器人经常访问我的 Nginx 驱动的网站,并且进行一些攻击性的扫描,导致消耗掉了我的网络服务器的大量资源。我一直尝试着通过用户代理符串来阻挡这些机器人。我怎样才能在 Nginx 网络服务器上阻挡掉特定的用户代理呢?

现代互联网滋生了大量各种各样的恶意机器人和网络爬虫,比如像恶意软件机器人、垃圾邮件程序或内容刮刀,这些恶意工具一直偷偷摸摸地扫描你的网站,干些诸如检测潜在网站漏洞、收获电子邮件地址,或者只是从你的网站偷取内容。大多数机器人能够通过它们的“用户代理”签名字符串来识别。

作为第一道防线,你可以尝试通过将这些机器人的用户代理字符串添加入 robots.txt 文件来阻止这些恶意软件机器人访问你的网站。但是,很不幸的是,该操作只针对那些“行为良好”的机器人,这些机器人被设计遵循 robots.txt 的规范。许多恶意软件机器人可以很容易地忽略掉 robots.txt,然后随意扫描你的网站。

另一个用以阻挡特定机器人的途径,就是配置你的网络服务器,通过特定的用户代理字符串拒绝要求提供内容的请求。本文就是说明如何 在 nginx 网络服务器上阻挡特定的用户代理

Linux 系统入门学习:Nginx 网络服务器上如何阻止特定用户代理(UA)

在 Nginx 中将特定用户代理列入黑名单

要配置用户代理阻挡列表,请打开你的网站的 nginx 配置文件,找到 server 定义部分。该文件可能会放在不同的地方,这取决于你的 nginx 配置或 Linux 版本(如,/etc/nginx/nginx.conf,/etc/nginx/sites-enabled/<your-site>,/usr/local/nginx/conf/nginx.conf,/etc/nginx/conf.d/<your-site>)。

  1. server {
  2. listen 80 default_server;
  3. server_name xmodulo.com;
  4. root /usr/share/nginx/html;
  5. ....
  6. }

在打开该配置文件并找到 server 部分后,添加以下 if 声明到该部分内的某个地方。

  1. server {
  2. listen 80 default_server;
  3. server_name xmodulo.com;
  4. root /usr/share/nginx/html;
  5. # 大小写敏感的匹配
  6. if($http_user_agent ~(Antivirx|Arian){
  7. return403;
  8. }
  9. # 大小写无关的匹配
  10. if($http_user_agent ~*(netcrawl|npbot|malicious)){
  11. return403;
  12. }
  13. ....
  14. }

如你所想,这些 if 声明使用正则表达式匹配了任意不良用户字符串,并向匹配的对象返回 403 HTTP 状态码。$http_user_agent是 HTTP 请求中的一个包含有用户代理字符串的变量。‘~’操作符针对用户代理字符串进行大小写敏感匹配,而‘~*’操作符则进行大小写无关匹配。‘|’操作符是逻辑或,因此,你可以在 if 声明中放入众多的用户代理关键字,然后将它们全部阻挡掉。

在修改配置文件后,你必须重新加载 nginx 以激活阻挡:

  1. $ sudo /path/to/nginx -s reload

你可以通过使用带有“–user-agent”选项的 wget 测试用户代理阻挡。

  1. $ wget --user-agent "malicious bot" http://<nginx-ip-address>

Linux 系统入门学习:Nginx 网络服务器上如何阻止特定用户代理(UA)

管理 Nginx 中的用户代理黑名单

目前为止,我已经展示了在 nginx 中如何阻挡一些用户代理的 HTTP 请求。如果你有许多不同类型的网络爬虫机器人要阻挡,又该怎么办呢?

由于用户代理黑名单会增长得很大,所以将它们放在 nginx 的 server 部分不是个好点子。取而代之的是,你可以创建一个独立的文件,在该文件中列出所有被阻挡的用户代理。例如,让我们创建 /etc/nginx/useragent.rules,并定义以下面的格式定义所有被阻挡的用户代理的图谱。

  1. $ sudo vi /etc/nginx/useragent.rules

  1. map $http_user_agent $badagent {
  2. default0;
  3. ~*malicious 1;
  4. ~*backdoor 1;
  5. ~*netcrawler 1;
  6. ~Antivirx1;
  7. ~Arian1;
  8. ~webbandit 1;
  9. }

与先前的配置类似,‘~*’将匹配以大小写不敏感的方式匹配关键字,而‘~’将使用大小写敏感的正则表达式匹配关键字。“default 0”行所表达的意思是,任何其它文件中未被列出的用户代理将被允许。

接下来,打开你的网站的 nginx 配置文件,找到里面包含 http 的部分,然后添加以下行到 http 部分某个位置。

  1. http {
  2. .....
  3. include /etc/nginx/useragent.rules
  4. }

注意,该 include 声明必须出现在 server 部分之前(这就是为什么我们将它添加到了 http 部分里)。

现在,打开 nginx 配置定义你的服务器的部分,添加以下 if 声明:

  1. server {
  2. ....
  3. if($badagent){
  4. return403;
  5. }
  6. ....
  7. }

最后,重新加载 nginx。

  1. $ sudo /path/to/nginx -s reload

现在,任何包含有 /etc/nginx/useragent.rules 中列出的关键字的用户代理将被 nginx 自动禁止。

CentOS 6.3 下 Nginx 性能调优 http://www.linuxidc.com/Linux/2013-09/89656.htm

CentOS 6.3 下配置 Nginx 加载 ngx_pagespeed 模块 http://www.linuxidc.com/Linux/2013-09/89657.htm

CentOS 6.4 安装配置 Nginx+Pcre+php-fpm http://www.linuxidc.com/Linux/2013-08/88984.htm

Nginx 安装配置使用详细笔记 http://www.linuxidc.com/Linux/2014-07/104499.htm

Nginx 日志过滤 使用 ngx_log_if 不记录特定日志 http://www.linuxidc.com/Linux/2014-07/104686.htm

Nginx 的详细介绍:请点这里
Nginx 的下载地址:请点这里


via: http://ask.xmodulo.com/block-specific-user-agents-nginx-web-server.html

作者:Dan Nanni 译者:GOLinux 校对:wxy

本文由 LCTT 原创翻译,Linux 中国 荣誉推出

来源:https://linux.cn/article-5487-1.html

本文永久更新链接地址:http://www.linuxidc.com/Linux/2015-05/117840.htm

正文完
星哥玩云-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2022-01-20发表,共计2772字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中