Python Scrapy多页数据爬取实现过程解析

作者：Hedger_Lee 时间：2021-02-28 08:14:01　

1.先指定通用模板

url = 'https://www.qiushibaike.com/text/page/％d/'#通用的url模板
pageNum = 1

2.对parse方法递归处理

parse第一次调用表示的是用来解析第一页对应页面中的数据

对后面的页码的数据要进行手动发送

if self.pageNum <= 5:
self.pageNum += 1
new_url = format(self.url％self.pageNum)
#手动请求(get)的发送
yield scrapy.Request(new_url,callback=self.parse)

完整示例

class QiubaiSpider(scrapy.Spider):
name = 'qiubai'
# allowed_domains = ['www.xxx.com']
start_urls = ['https://www.qiushibaike.com/text/']

url = 'https://www.qiushibaike.com/text/page/％d/'#通用的url模板
pageNum = 1
#parse第一次调用表示的是用来解析第一页对应页面中的段子内容和作者
def parse(self, response):
div_list = response.xpath('//*[@id="content-left"]/div')
all_data = []
for div in div_list:
author = div.xpath('./div[1]/a[2]/h2/text()').extract_first()

content = div.xpath('./a[1]/div/span//text()').extract()
content = ''.join(content)

# 将解析的数据存储到item对象
item = QiubaiproItem()
item['author'] = author
item['content'] = content

# 将item提交给管道
yield item # item一定是提交给了优先级最高的管道类

if self.pageNum <= 5:
self.pageNum += 1
new_url = format(self.url％self.pageNum)
#手动请求(get)的发送
yield scrapy.Request(new_url,callback=self.parse)

来源：https://www.cnblogs.com/Hedger-Lee/p/13072506.html

标签：Python,Scrapy,爬取

投稿

Python Scrapy多页数据爬取实现过程解析

猜你喜欢

Python编程入门的一些基本知识

详谈python中subprocess shell=False与shell=True的区别

sqlserver通用的删除服务器上的所有相同后缀的临时表

python3使用pyqt5制作一个超简单浏览器的实例

Python实现Tab自动补全和历史命令管理的方法

Python 函数list&read&seek详解

python dataframe向下向上填充,fillna和ffill的方法

5个Python杀手级的自动化脚本分享

python 利用pandas将arff文件转csv文件的方法

使用Python编写爬虫的基本模块及框架使用指南

python 实现任务管理清单案例

Python 机器学习库 NumPy入门教程

一个简单的python爬虫程序爬取豆瓣热度Top100以内的电影信息

关于python中remove的一些坑小结

纯CSS制作的网页中的lightbox效果

Django实现文件上传下载

简单介绍Python中的readline()方法的使用

Python爬取当网书籍数据并数据可视化展示

web标准：CSS clear的属性及使用方法

C++/Php/Python/Shell 程序按行读取文件或者控制台的实现

Python Scrapy多页数据爬取实现过程解析

猜你喜欢

Python编程入门的一些基本知识

详谈python中subprocess shell=False与shell=True的区别

sqlserver通用的删除服务器上的所有相同后缀的临时表

python3使用pyqt5制作一个超简单浏览器的实例

Python实现Tab自动补全和历史命令管理的方法

Python 函数list&read&seek详解

python dataframe向下向上填充,fillna和ffill的方法

5个Python杀手级的自动化脚本分享

python 利用pandas将arff文件转csv文件的方法

使用Python编写爬虫的基本模块及框架使用指南

python 实现任务管理清单案例

Python 机器学习库 NumPy入门教程

一个简单的python爬虫程序 爬取豆瓣热度Top100以内的电影信息

关于python中remove的一些坑小结

纯CSS制作的网页中的lightbox效果

Django实现文件上传下载

简单介绍Python中的readline()方法的使用

Python爬取当网书籍数据并数据可视化展示

web标准：CSS clear的属性及使用方法

C++/Php/Python/Shell 程序按行读取文件或者控制台的实现

一个简单的python爬虫程序爬取豆瓣热度Top100以内的电影信息