python妹子图简单爬虫实例

作者：tpythoner 时间：2022-12-11 05:47:50　

本文实例讲述了python妹子图简单爬虫实现方法。分享给大家供大家参考。具体如下：

#!/usr/bin/env python
#coding: utf-8
import urllib
import urllib2
import os
import re
import sys
#显示下载进度
def schedule(a,b,c):
'''''
a:已经下载的数据块
b:数据块的大小
c:远程文件的大小
'''
per = 100.0 * a * b / c
if per > 100 :
per = 100
print '％.2f％％' ％ per
#获取html源码
def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html
#下载图片
def downloadImg(html, num, foldername):
picpath = '％s' ％ (foldername) #下载到的本地目录
if not os.path.exists(picpath): #路径不存在时创建一个
os.makedirs(picpath)
target = picpath+'/％s.jpg' ％ num
myItems = re.findall('<p><a href="http:\/\/www.mzitu.com/.*?" ><img src="(.*?)" alt=".*?" /></a></p>',html,re.S)
print 'Downloading image to location: ' + target
urllib.urlretrieve(myItems[0], target, schedule)
#正则匹配分页
def findPage(html):
myItems = re.findall('<span>(\d*)</span>', html, re.S)
return myItems.pop()
#正则匹配列表
def findList(html):
myItems = re.findall('<h2><a href="http://www.mzitu.com/(\d*)" title="(.*?)" target="_blank">.*?</a></h2>', html, re.S)
return myItems
#总下载
def totalDownload(modelUrl):
listHtml5 = getHtml(modelUrl)
listContent = findList(listHtml)
for list in listContent:
html = getHtml('http://www.mzitu.com/' + str(list[0]))
totalNum = findPage(html)
for num in range(1, int(totalNum)+1):
if num == 1:
url = 'http://www.mzitu.com/' + str(list[0])
html5 = getHtml(url)
downloadImg(html5, str(num), str(list[1]))
else:
url = 'http://www.mzitu.com/' + str(list[0]) + '/'+str(num)
html5 = getHtml(url)
downloadImg(html5, str(num), str(list[1]))
if __name__ == '__main__':
listHtml = getHtml('http://www.mzitu.com/model')
#这是其中一个模块的url，可以添加不同的模块url从而达到整站爬取。
for model in range(1, int(findPage(listHtml))+1):
if model == 1:
modelUrl = 'http://www.mzitu.com/model'
totalDownload(modelUrl)
else:
modelUrl = 'http://www.mzitu.com/model/page/' + str(model)
totalDownload(modelUrl)
print "Download has finished."

希望本文所述对大家的Python程序设计有所帮助。

标签：python,爬虫

投稿

python妹子图简单爬虫实例

猜你喜欢

总结Python图形用户界面和游戏开发知识点

Django框架中间件(Middleware)用法实例分析

python使用KNN算法手写体识别

MySQL索引下推详细

解决python 输出到csv 出现多空行的情况

windows下mysql 5.7.20 安装配置方法图文教程

Python Paramiko上传下载sftp文件及远程执行命令详解

关于网站地图

如何解决pycharm中用matplotlib画图不显示中文的问题

Vue CLI3.0中使用jQuery和Bootstrap的方法

PyQt打开保存对话框的方法和使用详解

详解Golang中Channel的用法

Idea 2019.3 本应该搜索到的插件却搜索不到的解决方法

怎样解决MySQL 5.0.16的乱码问题

利用Python内置库实现创建命令行应用程序

Python selenium如何设置等待时间

javascript基础之数组(Array)对象

变量声明时命名与变量作为对象属性时命名的区别解析

mysql分表分库的应用场景和设计方式

浅谈python正则的常用方法覆盖范围70％以上

python妹子图简单爬虫实例

猜你喜欢

总结Python图形用户界面和游戏开发知识点

Django框架中间件(Middleware)用法实例分析

python使用KNN算法手写体识别

MySQL索引下推详细

解决python 输出到csv 出现多空行的情况

windows下mysql 5.7.20 安装配置方法图文教程

Python Paramiko上传下载sftp文件及远程执行命令详解

关于网站地图

如何解决pycharm中用matplotlib画图不显示中文的问题

Vue CLI3.0中使用jQuery和Bootstrap的方法

PyQt打开保存对话框的方法和使用详解

详解Golang中Channel的用法

Idea 2019.3 本应该搜索到的插件却搜索不到的解决方法

怎样解决MySQL 5.0.16的乱码问题

利用Python内置库实现创建命令行应用程序

Python selenium如何设置等待时间

javascript基础之数组(Array)对象

变量声明时命名与变量作为对象属性时命名的区别解析

mysql分表分库的应用场景和设计方式

浅谈python正则的常用方法 覆盖范围70％以上

浅谈python正则的常用方法覆盖范围70％以上