Python爬虫框架scrapy实现的文件下载功能示例

作者：Charles.L 时间：2023-09-23 09:41:56　

本文实例讲述了Python爬虫框架scrapy实现的文件下载功能。分享给大家供大家参考，具体如下：

我们在写普通脚本的时候，从一个网站拿到一个文件的下载url，然后下载，直接将数据写入文件或者保存下来，但是这个需要我们自己一点一点的写出来，而且反复利用率并不高，为了不重复造轮子，scrapy提供很流畅的下载文件方式，只需要随便写写便可用了。

mat.py文件

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractor import LinkExtractor
from weidashang.items import matplotlib
class MatSpider(scrapy.Spider):
name = "mat"
allowed_domains = ["matplotlib.org"]
start_urls = ['https://matplotlib.org/examples']
def parse(self, response):
#抓取每个脚本文件的访问页面，拿到后下载
link = LinkExtractor(restrict_css='div.toctree-wrapper.compound li.toctree-l2')
for link in link.extract_links(response):
yield scrapy.Request(url=link.url,callback=self.example)
def example(self,response):
#进入每个脚本的页面，抓取源码文件按钮，并和base_url结合起来形成一个完整的url
href = response.css('a.reference.external::attr(href)').extract_first()
url = response.urljoin(href)
example = matplotlib()
example['file_urls'] = [url]
return example

pipelines.py

class MyFilePlipeline(FilesPipeline):
def file_path(self, request, response=None, info=None):
path = urlparse(request.url).path
return join(basename(dirname(path)),basename(path))

settings.py

ITEM_PIPELINES = {
'weidashang.pipelines.MyFilePlipeline': 1,
}
FILES_STORE = 'examples_src'

items.py

class matplotlib(Item):
file_urls = Field()
files = Field()

run.py

from scrapy.cmdline import execute
execute(['scrapy', 'crawl', 'mat','-o','example.json'])

希望本文所述对大家Python程序设计有所帮助。

来源：https://www.cnblogs.com/lei0213/p/8098180.html

标签：Python,爬虫框架,scrapy,文件下载

投稿

Python爬虫框架scrapy实现的文件下载功能示例

猜你喜欢

Python网络编程之使用email、smtplib、poplib、imaplib模块收发邮件

SQL Server元数据的管理与应用

TensorFlow卷积神经网络之使用训练好的模型识别猫狗图片

Python如何处理异常报错方法(建议收藏!)

pytorch常用函数之torch.randn()解读

asp如何实现强制登录注册？

Go 语言实现 HTTP 文件上传和下载

Jquery 改变radio/checkbox选中状态,获取选中的值(示例代码)

Linux下安装mysql的教程详解

全民学编程之 Hello World

Python爬虫Scrapy框架IP代理的配置与调试

Python实现对二维码数据进行压缩

Python如何使用pymongo连接MongoDB数据库并进行相关操作

python生成n个元素的全组合方法

python实现凯撒密码

利用python实现蝴蝶曲线

python处理文本文件实现生成指定格式文件的方法

git 一个可以提高开发效率的命令：cherry-pick详解

pandas创建DataFrame对象失败的解决方法

JS操作input标签属性checkbox全选的实现代码