Python爬虫抓取指定网页图片代码实例

作者：ttweixiao9999 时间：2021-10-24 17:17:23　

想要爬取指定网页中的图片主要需要以下三个步骤：

（1）指定网站链接，抓取该网站的源代码（如果使用google浏览器就是按下鼠标右键 -> Inspect-> Elements 中的 html 内容）

（2）根据你要抓取的内容设置正则表达式以匹配要抓取的内容

（3）设置循环列表，重复抓取和保存内容

以下介绍了两种方法实现抓取指定网页中图片

（1）方法一：使用正则表达式过滤抓到的 html 内容字符串

# 第一个简单的爬取图片的程序
import urllib.request # python自带的爬操作url的库
import re # 正则表达式

# 该方法传入url,返回url的html的源代码
def getHtmlCode(url):
# 以下几行注释的代码在本程序中有加没加效果一样,但是为了隐藏自己避免被反爬虫可以假如这个伪装的头部请求
headers = {
'User-Agent': 'Mozilla/5.0(Linux; Android 6.0; Nexus 5 Build/MRA58N) \
AppleWebKit/537.36(KHTML, like Gecko) Chrome/56.0.2924.87 Mobile Safari/537.36'
}
# 将headers头部添加到url，模拟浏览器访问
url = urllib.request.Request(url, headers=headers)

# 将url页面的源代码保存成字符串
page = urllib.request.urlopen(url).read()
# 字符串转码
page = page.decode('UTF-8')
return page

# 该方法传入html的源代码，通过截取其中的img标签，将图片保存到本机
def getImage(page):
# [^\s]*? 表示最小匹配，两个括号表示列表中有两个元组
# imageList = re.findall(r'(https:[^\s]*?(png))"', page)
imageList = re.findall(r'(https:[^\s]*?(jpg|png|gif))"', page)
x = 0
# 循环列表
for imageUrl in imageList:
try:
print('正在下载: ％s' ％ imageUrl[0])
# 这个image文件夹需要先创建好才能看到结果
image_save_path = './image/％d.png' ％ x
# 下载图片并且保存到指定文件夹中
urllib.request.urlretrieve(imageUrl[0], image_save_path)
x = x + 1
except:
continue
pass
if __name__ == '__main__':
# 指定要爬取的网站
url = "https://www.cnblogs.com/ttweixiao-IT-program/p/13324826.html"
# 得到该网站的源代码
page = getHtmlCode(url)
# 爬取该网站的图片并且保存
getImage(page)
# print(page)

注意，代码中需要修改的就是imageList = re.findall(r'(https:[^\s]*?(jpg|png|gif))"', page) 这一块内容，如何设计正则表达式需要根据你想要抓取的内容设置。我的设计来源如下：

可以看到，因为这个网页上的图片都是 png 格式，所以写成imageList = re.findall(r'(https:[^\s]*?(png))"', page)也是可以的。

（2）方法二：使用 BeautifulSoup 库解析 html 网页

from bs4 import BeautifulSoup # BeautifulSoup是python处理HTML/XML的函数库，是Python内置的网页分析工具
import urllib # python自带的爬操作url的库

# 该方法传入url,返回url的html的源代码
def getHtmlCode(url):
# 以下几行注释的代码在本程序中有加没加效果一样,但是为了隐藏自己避免被反爬虫可以假如这个伪装的头部请求
headers = {
'User-Agent': 'Mozilla/5.0(Linux; Android 6.0; Nexus 5 Build/MRA58N) \
AppleWebKit/537.36(KHTML, like Gecko) Chrome/56.0.2924.87 Mobile Safari/537.36'
}
# 将headers头部添加到url，模拟浏览器访问
url = urllib.request.Request(url, headers=headers)

# 将url页面的源代码保存成字符串
page = urllib.request.urlopen(url).read()
# 字符串转码
page = page.decode('UTF-8')
return page

# 该方法传入html的源代码，通过截取其中的img标签，将图片保存到本机
def getImage(page):
# 按照html格式解析页面
soup = BeautifulSoup(page, 'html.parser')
# 格式化输出DOM树的内容
print(soup.prettify())
# 返回所有包含img标签的列表，因为在Html文件中图片的插入呈现形式是<img src="..." alt=".." />
imgList = soup.find_all('img')
x = 0
# 循环找到的图片列表，注意，这里手动设置从第2张图片开始，是因为我debug看到了第一张图片不是我想要的图片
for imgUrl in imgList[1:]:
print('正在下载：％s ' ％ imgUrl.get('src'))
# 得到scr的内容，这里返回的就是Url字符串链接，如'https://img2020.cnblogs.com/blog/1703588/202007/1703588-20200716203143042-623499171.png'
image_url = imgUrl.get('src')
# 这个image文件夹需要先创建好才能看到结果
image_save_path = './image/％d.png' ％ x
# 下载图片并且保存到指定文件夹中
urllib.request.urlretrieve(image_url, image_save_path)
x = x + 1
if __name__ == '__main__':
# 指定要爬取的网站
url = 'https://www.cnblogs.com/ttweixiao-IT-program/p/13324826.html'
# 得到该网站的源代码
page = getHtmlCode(url)
# 爬取该网站的图片并且保存
getImage(page)

这两种方法各有利弊，我觉得可以灵活结合使用这两种方法，比如先使用方法2中指定标签的方法缩小要寻找的内容范围，然后再使用正则表达式匹配想要的内容，这样做起来更加简洁明了。

来源：https://www.cnblogs.com/ttweixiao-IT-program/p/13356789.html

标签：Python,爬虫,抓取,网页,图片

投稿

Python爬虫抓取指定网页图片代码实例

猜你喜欢

5种禁用html页面的缓存方法

Python3实现将一维数组按标准长度分隔为二维数组

python 实现图片上传接口开发并生成可以访问的图片url

详解Python垃圾回收机制和常量池的验证

PHP-FPM运行状态的实时查看及监控详解

pycharm显示远程图片的实现

内容，而不是Chrome

Python3使用Matplotlib 绘制精美的数学函数图形

Python延时操作实现方法示例

Python定义一个函数的方法

pycharm 如何取消连按两下shift出现的全局搜索

python取代netcat过程分析

python使用百度或高德地图获取地理位置并转换

Python数据模型与Python对象模型的相关总结

从SQL Server2000升级到2005的过程解析

Python中的字典及其使用方法

在ASP中使用SQL语句之9:表单操作

中文段首不需要空两格

python 实现二维数组的索引、删除、拼接操作

PyTorch中topk函数的用法详解

Python爬虫抓取指定网页图片代码实例

猜你喜欢

5种禁用html页面的缓存方法

Python3实现将一维数组按标准长度分隔为二维数组

python 实现图片上传接口开发 并生成可以访问的图片url

详解Python垃圾回收机制和常量池的验证

PHP-FPM运行状态的实时查看及监控详解

pycharm显示远程图片的实现

内容，而不是Chrome

Python3使用Matplotlib 绘制精美的数学函数图形

Python延时操作实现方法示例

Python定义一个函数的方法

pycharm 如何取消连按两下shift出现的全局搜索

python取代netcat过程分析

python使用百度或高德地图获取地理位置并转换

Python数据模型与Python对象模型的相关总结

从SQL Server2000升级到2005的过程解析

Python中的字典及其使用方法

在ASP中使用SQL语句之9:表单操作

中文段首不需要空两格

python 实现二维数组的索引、删除、拼接操作

PyTorch中topk函数的用法详解

python 实现图片上传接口开发并生成可以访问的图片url