学习Python爬虫前必掌握知识点

作者:互联网老辛 时间:2022-10-09 04:32:57 

常见的协议

http和https
http协议:
超文本传输协议,是一个发布和接受HTML页面的方法,端口是80

https 协议:http协议的加密版本,在HTTP下加上了ssl层,端口是443

下面访问的是美团的官网:
可以看到端口是443

学习Python爬虫前必掌握知识点

URL和RUI

常见的请求方式

http协议规定了浏览器与服务器进行数据交互过程中必须要选择一种交互方式
在http协议中定义了8中请求方式,常见的是get和post请求

get请求: 一般只从服务器获取数据下来,并不会对服务器资源产生任何的影响。

学习Python爬虫前必掌握知识点
请求的时候关注:

url请求方式请求头

post请求: 向服务器发送数据(登陆),上传文件等,会对服务器资源产生影响的时候,会使用post请求。

不过有些网站做了反爬虫机制,你去查看信息,也是使用post请求,所以我们写爬虫的时候,一定要分析网站。

常见的请求头参数:

http协议中,向服务器发送一个请求,数据分为三部分:

  • 把数据放在url中

  • 数据放在body中,(post请求)

  • 数据放在head中

常见的请求头参数:

  • user-agent :浏览器名称

  • referer: 当前这个请求从哪个url过来的

  • cookie:http 协议是无状态的,也就是一个人发送了两次请求,服务器没有能力知道这两个请求是否来自同一个人。

学习Python爬虫前必掌握知识点

常见的相应状态码

  •  200 请求正常,服务器正常返回数据

  • 301 永久重定向

  • 404 请求的url在服务器上找不到

  • 418 发送请求遇到服务器端的反爬虫,服务器拒绝相应数据

  • 500 服务器内部错误,可能是服务器出现了bug

HTTP的请求相应过程

学习Python爬虫前必掌握知识点

使用浏览器进行网站分析

我们要分析的网站为: movie.douban.com

学习Python爬虫前必掌握知识点

  • Elements: 用于分析网站的结构

在页面上的呈现的内容,在Elements都会有相应的元素。

学习Python爬虫前必掌握知识点

  • Console: 这里会打印招聘信息,警告等等。

学习Python爬虫前必掌握知识点

  • Sources

  • Network : 在显示页面的时候,产生的所有请求

headers 头部信息

 session 与cookie

session代表的是服务器和浏览器的一次会话过程
session 是一种服务器端的机制,用来存储特定用户的会话所需要的信息,保存在内存,缓存,或者数据库中。

cookie
cooke是由服务器端生成后发送给客户端,cookie是保存在客户端的

cookie原理:
1) 创建cookie
2) 设置存储cookie
3) 发送cookie
4) 读取cookie

来源:https://zmedu.blog.csdn.net/article/details/115442584

标签:Python,爬虫,知识
0
投稿

猜你喜欢

  • django上传图片并生成缩略图方法示例

    2022-08-12 01:45:53
  • python sklearn包——混淆矩阵、分类报告等自动生成方式

    2022-05-29 12:19:27
  • Python实现数据可视化看如何监控你的爬虫状态【推荐】

    2022-07-15 11:50:43
  • Python自动化测试笔试面试题精选

    2021-05-17 03:32:59
  • CentOS 7.4 64位安装配置MySQL8.0的详细步骤

    2024-01-16 18:23:43
  • Go语言基础学习教程

    2024-02-06 07:12:11
  • Python Dataframe常见索引方式详解

    2023-06-21 21:03:25
  • 交互设计中的“007功能”

    2007-10-29 11:53:00
  • python 基于opencv操作摄像头

    2023-03-06 08:02:31
  • Python 转换时间戳为指定格式日期

    2023-11-05 13:48:41
  • python用plotly实现绘制局部放大图

    2021-06-13 06:30:44
  • 利用Python编写简易的录制屏幕小工具

    2023-12-17 04:34:57
  • 三分钟python搭建支付宝三方支付

    2022-02-03 22:58:42
  • SQL Server 存储过程遇到“表 ''#TT'' 没有标识属性无法执行 SET 操作”错误

    2024-01-24 00:07:57
  • Go语言sort包函数使用示例

    2023-10-15 03:29:59
  • SQLServer2005 XML数据操作代码

    2024-01-27 11:50:17
  • scrapy-redis分布式爬虫的搭建过程(理论篇)

    2022-04-25 20:49:25
  • AJAX应用之草稿自动保存

    2007-08-23 08:29:00
  • python实现高精度求自然常数e过程详解

    2023-12-01 05:21:51
  • js删除数组中指定元素的几种方式

    2024-04-10 10:50:48
  • asp之家 网络编程 m.aspxhome.com