Python爬虫程序架构和运行流程原理解析
作者:躬耕南阳 时间:2023-10-04 16:04:24
1 前言
Python开发网络爬虫获取网页数据的基本流程为:
发起请求
通过URL向服务器发起request请求,请求可以包含额外的header信息。
获取响应内容
服务器正常响应,将会收到一个response,即为所请求的网页内容,或许包含HTML,Json字符串或者二进制的数据(视频、图片)等。
解析内容
如果是HTML代码,则可以使用网页解析器进行解析,如果是Json数据,则可以转换成Json对象进行解析,如果是二进制的数据,则可以保存到文件做进一步处理。
保存数据
可以保存到本地文件,也可以保存到数据库(MySQL,Redis,MongoDB等)。
2 爬虫程序架构及运行流程
网络爬虫程序框架主要包括以下五大模块:
爬虫调度器
URL管理器
HTML下载器
HTML解析器
数据存储器
五大模块功能如下所示:
爬虫调度器:主要负责统筹其它四个模块的协调工作。
URL管理器:负责管理URL链接,维护已经爬取的URL集合和未爬取的URL集合,提供获取新URL链接的接口。
HTML下载器:用于从URL管理器中获取未爬取的URL链接并下载HTML网页。
HTML解析器:用于从HTML下载器中获取已经下载的HTML网页,并从中解析出新的URL链接交给URL管理器,解析出有效数据交给数据存储器。
数据存储器:用于将HTML解析器解析出来的数据通过文件或者数据库的形式存储起来。
网络爬虫程序框架的动态运行流程如下所示:
3 小结
本文简要介绍了Python开发网络爬虫的程序框架,将网络爬虫运行流程按照具体功能划分为不同模块,以便各司其职、协同运作。搭建好网络爬虫框架后,能够有效地提高我们开发网络爬虫项目的效率,避免一些重复造车轮的工作。
来源:https://www.cnblogs.com/yangmi511/p/12448067.html
![](/images/zang.png)
![](/images/jiucuo.png)
猜你喜欢
python的多元数据类型(下)
![](https://img.aspxhome.com/file/2023/5/117575_0s.jpg)
Python正则表达式和元字符详解
ASP连接MSSQL2005 数据库
原生JS实现非常好看的计数器
![](https://img.aspxhome.com/file/2023/5/135965_0s.gif)
使用CSS选择器创建个性化链接样式
![](https://img.aspxhome.com/file/UploadPic/up/2009060213205633.gif)
python使用循环打印所有三位数水仙花数的实例
sql中exists的基本用法示例
![](https://img.aspxhome.com/file/2023/6/106226_0s.png)
python 性能提升的几种方法
巧用XSL和ASP在线编辑XML文档
js查找/搜索页面中的字符源代码
python3 tkinter实现添加图片和文本
![](https://img.aspxhome.com/file/2023/3/86133_0s.jpg)
MySQL 实现lastInfdexOf的功能案例
注册表单的规则——读《Patterns for Sign Up &Ramp Up》
Pycharm使用远程linux服务器conda/python环境在本地运行的方法(图解))
![](https://img.aspxhome.com/file/2023/8/105298_0s.jpg)
利用Python 实现图片转字符画
![](https://img.aspxhome.com/file/2023/0/92510_0s.png)
Kettle下载安装pdi-ce-7.1.0.0-12教程
![](https://img.aspxhome.com/file/2023/6/114706_0s.jpg)
在centos7中分布式部署pyspider
c#判断数据库服务器是否已经启动的方法
浅谈MySQL 亿级数据分页的优化
![](https://img.aspxhome.com/file/2023/7/129927_0s.png)