Python使用Scrapy爬取妹子图

作者:hebedich 时间:2022-06-17 23:47:41 

Python Scrapy爬虫,听说妹子图挺火,我整站爬取了,上周一共搞了大概8000多张图片。和大家分享一下。

核心爬虫代码


# -*- coding: utf-8 -*-
from scrapy.selector import Selector
import scrapy
from scrapy.contrib.loader import ItemLoader, Identity
from fun.items import MeizituItem

class MeizituSpider(scrapy.Spider):
 name = "meizitu"
 allowed_domains = ["meizitu.com"]
 start_urls = (
   'http://www.meizitu.com/',
 )

def parse(self, response):
   sel = Selector(response)
   for link in sel.xpath('//h2/a/@href').extract():
     request = scrapy.Request(link, callback=self.parse_item)
     yield request

pages = sel.xpath("//div[@class='navigation']/div[@id='wp_page_numbers']/ul/li/a/@href").extract()
   print('pages: %s' % pages)
   if len(pages) > 2:
     page_link = pages[-2]
     page_link = page_link.replace('/a/', '')  
     request = scrapy.Request('http://www.meizitu.com/a/%s' % page_link, callback=self.parse)
     yield request

def parse_item(self, response):
   l = ItemLoader(item=MeizituItem(), response=response)
   l.add_xpath('name', '//h2/a/text()')
   l.add_xpath('tags', "//div[@id='maincontent']/div[@class='postmeta clearfix']/div[@class='metaRight']/p")
   l.add_xpath('image_urls', "//div[@id='picture']/p/img/@src", Identity())

l.add_value('url', response.url)
   return l.load_item()

项目地址:https://github.com/ZhangBohan/fun_crawler

以上所述就是本文的全部内容了,希望大家能够喜欢。

标签:Python,Scrapy,爬取妹子图
0
投稿

猜你喜欢

  • Django Form and ModelForm的区别与使用

    2022-04-12 15:28:10
  • SQL Server数据库附加失败的解决办法

    2024-01-25 05:38:23
  • php投票系统之增加与删除投票(管理员篇)

    2023-10-14 09:44:53
  • Go语言中的switch用法实例分析

    2024-04-23 09:39:06
  • Go压缩位图库roaring安装使用详解

    2024-05-22 10:16:42
  • python使用rpc框架gRPC的方法

    2021-02-28 06:28:37
  • 用Frontpage设计网站主页

    2008-10-23 13:44:00
  • Python入门:认识列表和元组

    2022-11-06 02:18:42
  • Mysql带And关键字的多条件查询语句

    2024-01-14 08:41:17
  • Python 弹窗设计小人发射爱心

    2021-07-16 14:41:01
  • 浅谈pytorch卷积核大小的设置对全连接神经元的影响

    2022-08-19 04:49:55
  • python 装饰器(Decorators)原理说明及操作代码

    2023-12-11 19:06:50
  • PHP在网页中动态生成PDF文件详细教程

    2024-05-08 09:34:56
  • PHP实现对图片的反色处理功能【测试可用】

    2023-11-03 19:41:28
  • Python Pygame制作雪夜烟花景

    2023-10-21 08:57:07
  • 有时间先后的翻页

    2008-05-23 13:14:00
  • CentOS 7中升级MySQL 5.7.23的坑与解决方法

    2024-01-16 21:54:53
  • MySQL 使用自定义变量进行查询优化

    2024-01-25 05:24:41
  • Python的字典和列表的使用中一些需要注意的地方

    2023-01-09 02:03:52
  • 基于Python实现火车票抢票软件

    2021-08-28 18:31:08
  • asp之家 网络编程 m.aspxhome.com