编写Python爬虫抓取暴走漫画上gif图片的实例分享

作者:goldensun 时间:2023-06-12 06:25:48 

本文要介绍的爬虫是抓取暴走漫画上的GIF趣图,方便离线观看。爬虫用的是python3.3开发的,主要用到了urllib、request和BeautifulSoup模块。

urllib模块提供了从万维网中获取数据的高层接口,当我们用urlopen()打开一个URL时,就相当于我们用Python内建的open()打开一个文件。但不同的是,前者接收一个URL作为参数,并且没有办法对打开的文件流进行seek操作(从底层的角度看,因为实际上操作的是socket,所以理所当然地没办法进行seek操作),而后者接收的是一个本地文件名。

Python的BeautifulSoup模块,可以帮助你实现HTML和XML的解析
先说一下,一般写网页爬虫,即抓取网页的html源码等内容,然后分析,提取相应的内容。
这种分析html内容的工作,如果只是用普通的正则表达式re模块去一点点匹配的话,对于内容简单点的网页分析,还是基本够用。
但是对于工作量很大,要解析内容很繁杂的html,那么用re模块,就会发现无法实现,或很难实现。
而使用beautifulsoup模块去帮你实现分析html源码的工作的话,你就会发现,事情变得如此简单,极大地提高了分析html源码的效率。
注:BeautifulSoup是第三方库,我使用的是bs4。urllib2在python3中被分配到了urllib.request中,文档中的原文如下。
Note:The urllib2 module has been split across several modules in Python 3 named urllib.requestand urllib.error.
爬虫源代码如下


# -*- coding: utf-8 -*-

import urllib.request
import bs4,os

page_sum = 1 #设置下载页数

path = os.getcwd()
path = os.path.join(path,'暴走GIF')
if not os.path.exists(path):
 os.mkdir(path)                 #创建文件夹

url = "http://baozoumanhua.com/gif/year"   #url地址
headers = {                     #伪装浏览器
 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)'
        ' Chrome/32.0.1700.76 Safari/537.36'
}

for count in range(page_sum):
 req = urllib.request.Request(
   url = url+str(count+1),
   headers = headers
 )
 print(req.full_url)
 content = urllib.request.urlopen(req).read()

soup = bs4.BeautifulSoup(content)          # BeautifulSoup
 img_content = soup.findAll('img',attrs={'style':'width:460px'})

url_list = [img['src'] for img in img_content]   #列表推导 url
 title_list = [img['alt'] for img in img_content]  #图片名称

for i in range(url_list.__len__()) :
   imgurl = url_list[i]
   filename = path + os.sep +title_list[i] + ".gif"
   print(filename+":"+imgurl)             #打印下载信息
   urllib.request.urlretrieve(imgurl,filename)    #下载图片

在第15行可以修改下载页数,将此文件保存为baozougif.py,使用命令python baozougif.py运行后在同目录下会生成「暴走GIF」的文件夹,所有的图片会自动下载到该目录中。

标签:Python,爬虫
0
投稿

猜你喜欢

  • python单例模式之selenium driver实现单例

    2021-09-30 14:31:03
  • Python plt.title()函数实例详解

    2023-07-02 21:00:34
  • js实现遮罩层弹出框的方法

    2024-02-23 09:01:33
  • vant之van-list的使用及踩坑记录

    2023-07-02 16:48:41
  • 详解CentOS升级Python2.6到Python2.7并安装pip

    2023-06-13 18:59:45
  • PDO取Oracle lob大字段,当数据量太大无法取出的问题的解决办法

    2024-01-15 00:47:43
  • NCCL深度学习Bootstrap网络连接建立源码解析

    2022-02-25 22:28:10
  • PyTorch 如何检查模型梯度是否可导

    2021-01-21 14:38:31
  • 使用pth文件添加Python环境变量方式

    2023-02-27 06:10:03
  • Pytest测试报告工具Allure的高级用法

    2023-06-20 17:21:09
  • Javascript 小游戏,“是男人坚持 100 次”

    2009-01-22 14:25:00
  • 该用多大的字

    2009-05-17 14:39:00
  • python使用Matplotlib画条形图

    2023-09-04 06:30:50
  • Python全景系列之数据类型大盘点

    2021-01-10 15:29:19
  • 支持生僻字且自动识别utf-8编码的php汉字转拼音类

    2023-11-14 21:04:40
  • pytorch获取模型某一层参数名及参数值方式

    2022-07-03 06:10:28
  • 详解MySQL索引原理以及优化

    2024-01-16 18:18:25
  • 给网页添加打印功能按钮

    2008-12-12 13:11:00
  • nodejs高版本降为低版本的详细解决方案

    2024-05-02 17:40:25
  • Python实现自动批量修改文件名称

    2023-07-30 04:56:56
  • asp之家 网络编程 m.aspxhome.com