Nginx反爬虫策略,防止UA抓取网站
作者:Mr.Yong 时间:2021-06-09 11:03:00
新增反爬虫策略文件:
vim /usr/www/server/nginx/conf/anti_spider.conf
文件内容
#禁止Scrapy等工具的抓取
if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {
return 403;
}
#禁止指定UA及UA为空的访问
if ($http_user_agent ~ "WinHttp|WebZIP|FetchURL|node-superagent|java/|FeedDemon|Jullo|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|Java|Feedly|Apache-HttpAsyncClient|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|BOT/0.1|YandexBot|FlightDeckReports|Linguee Bot|^$" ) {
return 403;
}
#禁止非GET|HEAD|POST方式的抓取
if ($request_method !~ ^(GET|HEAD|POST)$) {
return 403;
}
#屏蔽单个IP的命令是
#deny 123.45.6.7
#封整个段即从123.0.0.1到123.255.255.254的命令
#deny 123.0.0.0/8
#封IP段即从123.45.0.1到123.45.255.254的命令
#deny 124.45.0.0/16
#封IP段即从123.45.6.1到123.45.6.254的命令是
#deny 123.45.6.0/24
# 以下IP皆为流氓
#deny 58.95.66.0/24;
配置使用
在站点的server中引入
# 反爬虫
include /usr/www/server/nginx/conf/anti_spider.conf
最后重启nginx
校验是否有效
模拟YYSpider
λ curl -X GET -I -A 'YYSpider' https://www.myong.top
HTTP/1.1 200 Connection established
HTTP/2 403
server: marco/2.11
date: Fri, 20 Mar 2020 08:48:50 GMT
content-type: text/html
content-length: 146
x-source: C/403
x-request-id: 3ed800d296a12ebcddc4d61c57500aa2
模拟百度Baiduspider
λ curl -X GET -I -A 'BaiduSpider' https://www.myong.top
HTTP/1.1 200 Connection established
HTTP/2 200
server: marco/2.11
date: Fri, 20 Mar 2020 08:49:47 GMT
content-type: text/html
vary: Accept-Encoding
x-source: C/200
last-modified: Wed, 18 Mar 2020 13:16:50 GMT
etag: "5e721f42-150ce"
x-request-id: e82999a78b7d7ea2e9ff18b6f1f4cc84
爬虫常见的User-Agent
FeedDemon 内容采集
BOT/0.1 (BOT for JCE) sql注入
CrawlDaddy sql注入
Java 内容采集
Jullo 内容采集
Feedly 内容采集
UniversalFeedParser 内容采集
ApacheBench cc攻击器
Swiftbot 无用爬虫
YandexBot 无用爬虫
AhrefsBot 无用爬虫
YisouSpider 无用爬虫(已被UC神马搜索收购,此蜘蛛可以放开!)
jikeSpider 无用爬虫
MJ12bot 无用爬虫
ZmEu phpmyadmin 漏洞扫描
WinHttp 采集cc攻击
EasouSpider 无用爬虫
HttpClient tcp攻击
Microsoft URL Control 扫描
YYSpider 无用爬虫
jaunty wordpress爆破扫描器
oBot 无用爬虫
Python-urllib 内容采集
Indy Library 扫描
FlightDeckReports Bot 无用爬虫
Linguee Bot 无用爬虫
来源:https://www.myong.top/view/71
标签:Nginx,反爬虫,爬虫
0
投稿
猜你喜欢
谷歌互动游戏logo-吃豆人(Pac-Man)30周年纪念
2010-05-22 18:36:00
互联网出版许可证:网络游戏准入的第一道门槛
2009-10-17 09:07:00
SEOmoz:网站宕机是最影响搜索引擎排名
2009-09-15 14:42:00
Linux中MongoDB如何实现远程自动备份详解
2023-08-20 21:02:31
地方网站的地方化运营
2008-12-11 20:22:00
张朝阳作为互联网首棒火炬手传递奥运圣火
2008-05-04 11:42:00
马化腾:腾讯看走眼的很多 不止YouTube
2008-01-13 19:09:00
VMware下ubuntu扩展磁盘空间的方法
2022-02-19 00:26:29
无桌面的linux安装VMWare Tools配置教程
2022-03-08 09:19:55
IIS7在Windows Server 2008R2的新改进
2009-01-14 11:02:00
解密DDoS攻击 “缓存溢出”新变形
2009-12-24 14:22:00
网页游戏倍受白领和学生青睐
2008-03-10 11:12:00
免费开源IIS过滤器
2009-08-09 15:35:00
GoDaddy常见问题之Linux主机帐户的绝对路径问题
2010-04-14 12:50:00
关注网站常见后门方法大总结
2009-10-23 08:46:00
百度排名公式最新版
2008-01-10 20:16:00
利用网站再设计提高转换率之七步曲
2009-09-26 12:11:00
Godaddy主机购买图解教程
2010-04-20 12:56:00
使用 mailman 架设邮件列表
2010-03-11 18:45:00
对关键字优化的一些个人看法和经验
2007-12-26 22:27:00