Nginx反爬虫策略,防止UA抓取网站

作者:Mr.Yong 时间:2021-06-09 11:03:00 

新增反爬虫策略文件:


vim /usr/www/server/nginx/conf/anti_spider.conf

文件内容


#禁止Scrapy等工具的抓取
if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {
  return 403;
}
#禁止指定UA及UA为空的访问
if ($http_user_agent ~ "WinHttp|WebZIP|FetchURL|node-superagent|java/|FeedDemon|Jullo|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|Java|Feedly|Apache-HttpAsyncClient|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|BOT/0.1|YandexBot|FlightDeckReports|Linguee Bot|^$" ) {
  return 403;        
}
#禁止非GET|HEAD|POST方式的抓取
if ($request_method !~ ^(GET|HEAD|POST)$) {
 return 403;
}
#屏蔽单个IP的命令是
#deny 123.45.6.7
#封整个段即从123.0.0.1到123.255.255.254的命令
#deny 123.0.0.0/8
#封IP段即从123.45.0.1到123.45.255.254的命令
#deny 124.45.0.0/16
#封IP段即从123.45.6.1到123.45.6.254的命令是
#deny 123.45.6.0/24
# 以下IP皆为流氓
#deny 58.95.66.0/24;

配置使用

在站点的server中引入


# 反爬虫  
include /usr/www/server/nginx/conf/anti_spider.conf

最后重启nginx

校验是否有效

模拟YYSpider


λ curl -X GET -I -A 'YYSpider' https://www.myong.top
HTTP/1.1 200 Connection established
HTTP/2 403
server: marco/2.11
date: Fri, 20 Mar 2020 08:48:50 GMT
content-type: text/html
content-length: 146
x-source: C/403
x-request-id: 3ed800d296a12ebcddc4d61c57500aa2

模拟百度Baiduspider


λ curl -X GET -I -A 'BaiduSpider' https://www.myong.top
HTTP/1.1 200 Connection established
HTTP/2 200
server: marco/2.11
date: Fri, 20 Mar 2020 08:49:47 GMT
content-type: text/html
vary: Accept-Encoding
x-source: C/200
last-modified: Wed, 18 Mar 2020 13:16:50 GMT
etag: "5e721f42-150ce"
x-request-id: e82999a78b7d7ea2e9ff18b6f1f4cc84

爬虫常见的User-Agent


FeedDemon       内容采集
BOT/0.1 (BOT for JCE) sql注入
CrawlDaddy      sql注入
Java         内容采集
Jullo         内容采集
Feedly        内容采集
UniversalFeedParser  内容采集
ApacheBench      cc攻击器
Swiftbot       无用爬虫
YandexBot       无用爬虫
AhrefsBot       无用爬虫
YisouSpider      无用爬虫(已被UC神马搜索收购,此蜘蛛可以放开!)
jikeSpider      无用爬虫
MJ12bot        无用爬虫
ZmEu phpmyadmin    漏洞扫描
WinHttp        采集cc攻击
EasouSpider      无用爬虫
HttpClient      tcp攻击
Microsoft URL Control 扫描
YYSpider       无用爬虫
jaunty        wordpress爆破扫描器
oBot         无用爬虫
Python-urllib     内容采集
Indy Library     扫描
FlightDeckReports Bot 无用爬虫
Linguee Bot      无用爬虫

来源:https://www.myong.top/view/71

标签:Nginx,反爬虫,爬虫
0
投稿

猜你喜欢

  • 谷歌互动游戏logo-吃豆人(Pac-Man)30周年纪念

    2010-05-22 18:36:00
  • 互联网出版许可证:网络游戏准入的第一道门槛

    2009-10-17 09:07:00
  • SEOmoz:网站宕机是最影响搜索引擎排名

    2009-09-15 14:42:00
  • Linux中MongoDB如何实现远程自动备份详解

    2023-08-20 21:02:31
  • 地方网站的地方化运营

    2008-12-11 20:22:00
  • 张朝阳作为互联网首棒火炬手传递奥运圣火

    2008-05-04 11:42:00
  • 马化腾:腾讯看走眼的很多 不止YouTube

    2008-01-13 19:09:00
  • VMware下ubuntu扩展磁盘空间的方法

    2022-02-19 00:26:29
  • 无桌面的linux安装VMWare Tools配置教程

    2022-03-08 09:19:55
  • IIS7在Windows Server 2008R2的新改进

    2009-01-14 11:02:00
  • 解密DDoS攻击 “缓存溢出”新变形

    2009-12-24 14:22:00
  • 网页游戏倍受白领和学生青睐

    2008-03-10 11:12:00
  • 免费开源IIS过滤器

    2009-08-09 15:35:00
  • GoDaddy常见问题之Linux主机帐户的绝对路径问题

    2010-04-14 12:50:00
  • 关注网站常见后门方法大总结

    2009-10-23 08:46:00
  • 百度排名公式最新版

    2008-01-10 20:16:00
  • 利用网站再设计提高转换率之七步曲

    2009-09-26 12:11:00
  • Godaddy主机购买图解教程

    2010-04-20 12:56:00
  • 使用 mailman 架设邮件列表

    2010-03-11 18:45:00
  • 对关键字优化的一些个人看法和经验

    2007-12-26 22:27:00
  • asp之家 网站运营 m.aspxhome.com