Python使用Scrapy爬取妹子图
作者:hebedich 时间:2022-06-17 23:47:41
Python Scrapy爬虫,听说妹子图挺火,我整站爬取了,上周一共搞了大概8000多张图片。和大家分享一下。
核心爬虫代码
# -*- coding: utf-8 -*-
from scrapy.selector import Selector
import scrapy
from scrapy.contrib.loader import ItemLoader, Identity
from fun.items import MeizituItem
class MeizituSpider(scrapy.Spider):
name = "meizitu"
allowed_domains = ["meizitu.com"]
start_urls = (
'http://www.meizitu.com/',
)
def parse(self, response):
sel = Selector(response)
for link in sel.xpath('//h2/a/@href').extract():
request = scrapy.Request(link, callback=self.parse_item)
yield request
pages = sel.xpath("//div[@class='navigation']/div[@id='wp_page_numbers']/ul/li/a/@href").extract()
print('pages: %s' % pages)
if len(pages) > 2:
page_link = pages[-2]
page_link = page_link.replace('/a/', '')
request = scrapy.Request('http://www.meizitu.com/a/%s' % page_link, callback=self.parse)
yield request
def parse_item(self, response):
l = ItemLoader(item=MeizituItem(), response=response)
l.add_xpath('name', '//h2/a/text()')
l.add_xpath('tags', "//div[@id='maincontent']/div[@class='postmeta clearfix']/div[@class='metaRight']/p")
l.add_xpath('image_urls', "//div[@id='picture']/p/img/@src", Identity())
l.add_value('url', response.url)
return l.load_item()
项目地址:https://github.com/ZhangBohan/fun_crawler
以上所述就是本文的全部内容了,希望大家能够喜欢。
标签:Python,Scrapy,爬取妹子图
0
投稿
猜你喜欢
Django Form and ModelForm的区别与使用
2022-04-12 15:28:10
SQL Server数据库附加失败的解决办法
2024-01-25 05:38:23
php投票系统之增加与删除投票(管理员篇)
2023-10-14 09:44:53
Go语言中的switch用法实例分析
2024-04-23 09:39:06
Go压缩位图库roaring安装使用详解
2024-05-22 10:16:42
python使用rpc框架gRPC的方法
2021-02-28 06:28:37
用Frontpage设计网站主页
2008-10-23 13:44:00
Python入门:认识列表和元组
2022-11-06 02:18:42
Mysql带And关键字的多条件查询语句
2024-01-14 08:41:17
Python 弹窗设计小人发射爱心
2021-07-16 14:41:01
浅谈pytorch卷积核大小的设置对全连接神经元的影响
2022-08-19 04:49:55
python 装饰器(Decorators)原理说明及操作代码
2023-12-11 19:06:50
PHP在网页中动态生成PDF文件详细教程
2024-05-08 09:34:56
PHP实现对图片的反色处理功能【测试可用】
2023-11-03 19:41:28
Python Pygame制作雪夜烟花景
2023-10-21 08:57:07
有时间先后的翻页
2008-05-23 13:14:00
CentOS 7中升级MySQL 5.7.23的坑与解决方法
2024-01-16 21:54:53
MySQL 使用自定义变量进行查询优化
2024-01-25 05:24:41
Python的字典和列表的使用中一些需要注意的地方
2023-01-09 02:03:52
基于Python实现火车票抢票软件
2021-08-28 18:31:08