浅析Python requests 模块

作者:kevin.Xiang 时间:2023-04-28 17:45:18 

Python requests 模块

requests 模块是我们使用的 python爬虫 模块 可以完成市场进80%的爬虫需求。

安装


pip install requests

使用

requests模块代码编写的流程:

  • - 指定url

  • - 发起请求

  • - 获取响应对象中的数据

  • - 持久化存储


-------------案例-------------------------
import requests
# 指定url
url="https://www.sogou.com/"
# 发起请求
response = requests.get(url)
# 获取响应对象中的数据
page_text = response.text
# 持久化存储
with open('./sogou.html','w',encoding='utf-8') as fp:
 fp.write()
-------------------------------------------

参数


# post 数据
response = requests.post(url=url,data=data,headers=headers)

# get 数据
response = requests.get(url=url,data=data,headers=headers)

# 返回二进制数据
response.content

# 返回字符串数据  
response.text  

# 返回json对象  
response.json()

其他了解

1、该模块实现爬取数据前需要查找需要爬取数据的指定URL,可通过浏览器自带抓包功能。


# 浏览器抓取 Ajax 请求
F12 --> Network --> XHR --> Name --> Response

2、上面的headers参数是进行UA伪装为了反反爬

反爬机制:UA检测 --> UA伪装

3、下面是http我们爬包是常用的请求头参数


- accept: 浏览器通过这个头告诉服务器,他所支持的数据类型
- Accept-Charset:浏览器通过这个头告诉服务器,它支持那种字符集
- Accept-Encoding:浏览器通过这个头告诉服务器,支持的压缩格式
- Accept-Language:浏览器通过这个头告诉服务器,他的语言环境
- Host:浏览器同过这个头告诉服务器,想访问哪台主机
- If-ModifiedSince:浏览器通过这个头告诉服务器,缓存数据的时间
- Heferer:浏览器通过这个头告诉服务器,客户及时那个页面来的,防盗链
- Connection:浏览器通过这个头告诉服务器,请求完后是断开链接还是保持链接
- X-Requested-With:XMLHttpRequest 代表通过ajax方式进行访问
- User-Agent:请求载体的身份标识

来源:https://www.cnblogs.com/xiangsikai/p/11251530.html

标签:Python,requests,模块,爬虫
0
投稿

猜你喜欢

  • Go语言操作Excel利器之excelize类库详解

    2024-04-28 09:12:47
  • Python logging日志库空间不足问题解决

    2021-08-24 15:59:17
  • Django 状态保持搭配与存储的实现

    2021-05-10 04:16:00
  • Mysql中的自连接问题

    2024-01-17 17:55:43
  • ASP数据库连接方式大全

    2023-07-12 05:52:59
  • AspJpeg 2.0组件使用教程(GIF篇)

    2008-12-16 19:37:00
  • Python使用conda如何安装requirement.txt的扩展包

    2022-03-13 23:01:18
  • python uuid生成唯一id或str的最简单案例

    2021-06-07 00:40:45
  • 利用Python和C语言分别实现哈夫曼编码

    2021-08-12 09:59:49
  • 关于命令行执行Python脚本的传参方式

    2021-01-02 02:33:23
  • Python新手入门之解释器的安装

    2023-02-14 15:41:52
  • 又一个仿alert提示效果

    2007-12-24 17:34:00
  • Python实现mysql数据库中的SQL文件生成和导入

    2024-01-22 01:04:41
  • Python中面向对象你应该知道的一下知识

    2022-01-31 11:35:47
  • 基于django 的orm中非主键自增的实现方式

    2023-06-04 13:53:54
  • Python Pygame实战之红心大战游戏的实现

    2023-08-23 02:28:08
  • asp.net实现存储和读取数据库图片

    2024-01-19 06:56:32
  • Python接口自动化之文件上传/下载接口详解

    2022-01-02 17:32:28
  • 解决Python中导入自己写的类,被划红线,但不影响执行的问题

    2021-07-11 19:10:29
  • python接口,继承,重载运算符详解

    2023-03-08 05:51:38
  • asp之家 网络编程 m.aspxhome.com