python爬虫用scrapy获取影片的实例分析

作者:小妮浅浅 时间:2023-09-25 09:22:30 

我们平时生活的娱乐中,看电影是大部分小伙伴都喜欢的事情。周围的人总会有意无意的在谈论,有什么影片上映,好不好看之类的话题,没事的时候谈论电影是非常不错的话题。那么,一些好看的影片如果不去电影院的话,在其他地方看都会有大大小小的限制,今天小编就教大家用python中的scrapy获取影片的办法吧。

1. 创建项目

运行命令:


scrapy startproject myfrist(your_project_name)

python爬虫用scrapy获取影片的实例分析

文件说明: 名称 | 作用 --|-- scrapy.cfg | 项目的配置信息,主要为Scrapy命令行工具提供一个基础的配置信息。(真正爬虫相关的配置信息在settings.py文件中) items.py | 设置数据存储模板,用于结构化数据,如:Django的Model pipelines | 数据处理行为,如:一般结构化的数据持久化 settings.py | 配置文件,如:递归的层数、并发数,延迟下载等 spiders | 爬虫目录,如:创建文件,编写爬虫规则

注意:一般创建爬虫文件时,以网站域名命名

2 编写 spdier

在spiders目录中新建 daidu_spider.py 文件

2.1 注意

爬虫文件需要定义一个类,并继承scrapy.spiders.Spider

必须定义name,即爬虫名,如果没有name,会报错。因为源码中是这样定义的

2.2 编写内容

在这里可以告诉 scrapy 。要如何查找确切数据,这里必须要定义一些属性

name: 它定义了蜘蛛的唯一名称

allowed_domains: 它包含了蜘蛛抓取的基本URL;

start-urls: 蜘蛛开始爬行的URL列表;

parse(): 这是提取并解析刮下数据的方法;

下面的代码演示了蜘蛛代码的样子:


import scrapy
class DoubanSpider(scrapy.Spider):
 name = 'douban'
 allwed_url = 'douban.com'
 start_urls = [
   'https://movie.douban.com/top250/'
 ]
 def parse(self, response):
   movie_name = response.xpath("//div[@class='item']//a/span[1]/text()").extract()
   movie_core = response.xpath("//div[@class='star']/span[2]/text()").extract()
   yield {
     'movie_name':movie_name,
     'movie_core':movie_core
   }

来源:https://www.py.cn/jishu/jichu/21134.html

标签:python爬虫,scrapy,获取影片
0
投稿

猜你喜欢

  • ASP获取ACCESS数据库表名及结构的代码

    2011-04-15 10:50:00
  • Django 设置多环境配置文件载入问题

    2023-09-08 09:16:19
  • 如何用Python绘制棒棒糖图表

    2021-05-02 06:26:33
  • Python画图时如何调用本地字体

    2023-08-02 08:51:31
  • 在Django的URLconf中进行函数导入的方法

    2023-07-10 10:46:26
  • 浅谈SQLite时间函数的使用说明与总结分析

    2024-01-17 13:18:52
  • python实现的简单RPG游戏流程实例

    2021-11-13 21:29:53
  • SQL Server控制语句的基本应用

    2024-01-24 12:52:28
  • 浅析阿里巴巴前端招聘考题

    2008-01-19 09:52:00
  • 详解vue-cli本地环境API代理设置和解决跨域

    2024-05-02 16:23:30
  • Python中IP地址处理IPy模块的方法

    2023-05-19 05:21:25
  • asp如何制作一个WAP手机的WML网页?

    2010-06-29 21:21:00
  • SQL语句实现删除ACCESS重复记录的两种方法

    2024-01-24 21:43:25
  • python 2.7.14安装图文教程

    2023-09-22 16:08:33
  • SQL server分页的4种方法示例(很全面)

    2024-01-27 15:09:47
  • pandas函数isnull的具体使用

    2022-08-04 18:43:02
  • Python一句代码实现找出所有水仙花数的方法

    2021-10-09 08:10:44
  • keras 简单 lstm实例(基于one-hot编码)

    2023-07-11 05:42:04
  • python pyg2plot的原理知识点总结

    2021-03-27 23:13:51
  • 全新极速CSS选择器引擎whiz

    2009-08-30 15:48:00
  • asp之家 网络编程 m.aspxhome.com