关于爬虫和反爬虫的简略方案分享

作者:ljmatlight 时间:2022-08-01 09:54:53 

前言

爬虫和反爬虫日益成为每家公司的标配系统。

爬虫在情报获取、虚假流量、动态定价、恶意攻击、薅羊毛等方面都能起到很关键的作用,所以每家公司都或多或少的需要开发一些爬虫程序,业界在这方面的成熟的方案也非常多。

有矛就有盾,每家公司也相应的需要反爬虫系统来达到数据保护、系统稳定性保障、竞争优势保持的目的。

像安全与黑客从来都是相辅相成一样。

爬虫与反爬虫也是在双方程序员的斗智斗勇的过程不断发展和成长的。

抓包

抓包的目的: 分析出协议请求使用的数据,请求接口,参数等等。

常用的抓包分析工具:

  • Fiddler

  • Charles

  • Sniffer

  • Wireshark

具体使用策略,请自行百度,Google。

抓数据

使用 HttpClient 模拟请求

充分了解 HttpClient 的特性,使用方式等。

HttpClient4.5官方教程

user_agent 的使用

使用 user_agent 的伪装和轮换模拟不同的客户端。

建立UserAgent池,可以通过以下地址获取一定量的UserAgent的信息。


http://www.fynas.com/ua/search?b=Chrome&k=

* 的使用

建立代理ip池,一般使用的免费或收费代理获取代理ip每秒都会有一定的频率限制。

那么我们在使用的时候,就要在频率限制内建立自己内部的一些策略,

当然这些策略建立在代理服务商的策略之上。因此设计实施时要考虑易维护性。

http代理

有些网站(包括APP、PC)具有一定的反爬虫能力,

如拒绝代理ip直接请求接口:

这是我使用代理ip请求登录接口时,某APP的响应:


CONNECT refused by proxy

而使用socks代理则无此问题。这就不得不要了解http代理和socks代理的区别。

socks代理

待续

设置访问频率

即便是使用了代理ip,那么对目标接口的访问也要有一定的频率控制,

防止目标服务方检测出频率过快,进行拒绝服务的响应。

Cookie 池失效和更新策略

获取目标站点Cookie有效时间,

将对应账号和Cookie存入Redis,

起一个任务对账号Cookie进行定时检测,

接近失效时间,进行提前更新Cookie信息,

具体Cookie 池Cookie的失效和更新策略需要根据自己业务进行适当调整。

防止目标方的分析

  • 确保同一账号的请求使用的是同一个UserAgent、同一个代理ip。

  • 注意访问频率

  • 其他

总而言之,就是模拟正常的客户端发起对服务方的请求,伪装的越像正常的客户端,服务方越难分析出。

只要是服务方能够提供服务,一般情况下都可以进行数据的爬取,

只不过是难易程度不同。

如果出于商业目的,要考虑付出的成本到底是否合适。

来源:https://www.cnblogs.com/ljmatlight/p/8275805.html

标签:反爬虫,爬虫,方案
0
投稿

猜你喜欢

  • python 遍历目录(包括子目录)下所有文件的实例

    2022-05-01 00:01:52
  • python实现在多维数组中挑选符合条件的全部元素

    2022-06-02 03:43:12
  • axios发送post请求springMVC接收不到参数的解决方法

    2023-07-02 16:59:05
  • Laravel中使用阿里云OSS Composer包分享

    2023-11-04 23:31:23
  • GoFrame基于性能测试得知grpool使用场景

    2024-05-08 10:52:24
  • windows下Python安装、使用教程和Notepad++的使用教程

    2023-04-21 09:31:39
  • Python将多个list合并为1个list的方法

    2023-10-17 10:13:17
  • SQL Server中实现二进制与字符类型之间的数据转换

    2023-07-17 21:34:47
  • 编写数据库asp程序需注意的问题

    2007-12-29 12:57:00
  • python实现水仙花数实例讲解

    2021-04-05 11:38:05
  • ASP实现文件直接下载

    2008-11-19 15:39:00
  • 用SQL语句解决mysql导入大数据文件的问题

    2024-01-13 05:52:23
  • onerror图片失效时显示其他图片

    2008-08-11 21:05:00
  • 部署Python的框架下的web app的详细教程

    2022-06-03 08:20:57
  • Python的Flask框架中使用Flask-Migrate扩展迁移数据库的教程

    2024-01-19 06:38:45
  • scrapy-redis源码分析之发送POST请求详解

    2021-05-19 05:24:03
  • 教你怎么用Python生成九宫格照片

    2023-12-02 17:20:51
  • SpringBoot集成内存数据库Sqlite的实践

    2024-01-15 10:24:11
  • js实现黑白div块画空心的图形

    2023-08-29 07:24:21
  • Mysql的最大连接数怎样用java程序测试

    2009-01-14 12:05:00
  • asp之家 网络编程 m.aspxhome.com