使用Python的Scrapy框架十分钟爬取美女图
作者:strivescript 时间:2023-06-16 03:28:57
简介
scrapy 是一个 python 下面功能丰富、使用快捷方便的爬虫框架。用 scrapy 可以快速的开发一个简单的爬虫,官方给出的一个简单例子足以证明其强大:
快速开发
下面开始10分钟倒计时:
当然开始前,可以先看看之前我们写过的 scrapy 入门文章 《零基础写python爬虫之使用Scrapy框架编写爬虫
1. 初始化项目
scrapy startproject mzt
cd mzt
scrapy genspider meizitu meizitu.com
2. 添加 spider 代码:
定义 scrapy.Item ,添加 image_urls 和 images ,为下载图片做准备。
修改 start_urls 为初始页面, 添加 parse 用于处理列表页, 添加 parse_item 处理项目页面。
3. 修改配置文件:
DOWNLOAD_DELAY = 1 # 添加下载延迟配置
ITEM_PIPELINES = {'scrapy.pipelines.images.ImagesPipeline': 1} # 添加图片下载 pipeline
IMAGES_STORE = '.' # 设置图片保存目录
4. 运行项目:
scrapy crawl meizitu
看,项目运行效果图
等待一会儿,就是收获的时候了
来源:http://www.factj.com/archives/609.html
标签:python,scrapy,爬取
0
投稿
猜你喜欢
ASP写的不错的"数字分页"涵数
2008-10-19 17:21:00
MobaXterm详细使用图文教程(MobaXterm连接Linux服务器)
2023-05-07 05:51:43
基于Python采集爬取微信公众号历史数据
2023-04-11 15:16:13
Python实现将一个正整数分解质因数的方法分析
2021-01-09 10:39:29
Win10环境中如何实现python2和python3并存
2023-10-18 02:58:34
python 实现docx与doc文件的互相转换
2022-01-19 06:45:58
JavaScript常见数组方法之如何转置矩阵
2024-04-17 10:37:41
nginx搭建基于python的web环境的实现步骤
2023-07-27 07:06:49
MySql版本问题sql_mode=only_full_group_by的完美解决方案
2024-01-18 16:08:14
基于Python+Appium实现京东双十一自动领金币功能
2022-10-15 19:21:04
pytorch+sklearn实现数据加载的流程
2022-05-15 14:44:27
asp如何远程读取数据库页面?
2010-06-16 09:57:00
Python使用pptx实现复制页面到其他PPT中
2021-07-13 01:28:16
八种获取当前日期的js代码
2007-09-07 10:26:00
Git命令的简单整理大全
2023-09-22 09:30:52
Python打包工具PyInstaller的安装与pycharm配置支持PyInstaller详细方法
2022-05-20 06:36:55
一文了解Python 流程控制
2021-01-27 18:37:28
pytorch transform数据处理转c++问题
2023-08-19 11:24:49
利用Python爬虫给孩子起个好名字
2022-04-25 23:40:29
GoLang channel关闭状态相关操作详解
2024-04-26 17:26:52