python爬取一组小姐姐图片实例

作者：新手_six 时间：2023-08-03 15:05:45　

前言

前段时间我有个朋友看到一些小姐姐的照片，想全部下载下来，叫我帮个忙。于是花费了半天给他全部下载了下来。

引入库

import time
import requests
from lxml import etree

这三个库是为了让我们在请求别人网站的时候，让程序休息一会，避免别人的网站会拦截或者崩溃和将得到的页面源代码进行解析。

网页分析

利用浏览器的开发者模式，对页面进行分析，找出我们所需要的每个图片封面url

href = tree.xpath('//*[@id="features"]/div/div[1]/div/div[1]/a/@href')

我们得到了封面的url后，但这还不是我们所需要的，我们所需要的是超链接里面的图片

我们进入后，发现每张图片都在<p></p>里面，如何我们利用循环得到每张图片的url地址

for url_img in href:
img_url = requests.get(url_img,headers=head)
# print(img_url.text)
time.sleep(1)
t = etree.HTML(img_url.text)
url_list = t.xpath("/html/body/section/div/div/div[1]/div[2]/p[2]/img/@src")

剩下的就很简单了，我们只需对文件进行保存就得到我们想要的结果了。

with open(f"./img/{name}",mode="wb") as f:
f.write(download_img.content)
print("正在下载:" +name)
time.sleep(1)

总结

但同步下载非常慢，我们可以写个多线程或者异步协程来帮助我们下载得更快。

我知道还有很多不足，有没有更简洁的写法，希望大佬们能指出，谢谢！

完整代码

import time
import requests
from lxml import etree
def get_page_url():
for i in range(1, 4): # 循环3页
url = f"https://mm.tvv.tw/category/xinggan/{i}/"
# 请求页面得到源代码
res = requests.get(url,headers=head)
# 对源代码进行解析
tree = etree.HTML(res.text)
# 得到每个图片的封面url（href）
href = tree.xpath('//*[@id="features"]/div/div[1]/div/div[1]/a/@href')
# print("-------------------------------------------------------")
time.sleep(3)
for url_img in href:
img_url = requests.get(url_img,headers=head)
# print(img_url.text)
time.sleep(1)
t = etree.HTML(img_url.text)
url_list = t.xpath("/html/body/section/div/div/div[1]/div[2]/p[2]/img/@src")
# print(url_list)
time.sleep(1)
for url_src in url_list:
get_img(url_src)
def get_img(url):
name = url.rsplit("/",1)[1]
time.sleep(2)
download_img = requests.get(url,headers=head)
with open(f"./img/{name}",mode="wb") as f:
f.write(download_img.content)
print("正在下载:" +name)
time.sleep(1)
f.close()
if __name__ == '__main__':
head = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36"}
get_page_url()

到此这篇关于python爬取一组小姐姐图片实例的文章就介绍到这了！

来源：https://blog.csdn.net/Six23/article/details/122517233

标签：Python,图片

投稿

python爬取一组小姐姐图片实例

前言

引入库

网页分析

总结

完整代码

猜你喜欢

使用matplotlib中scatter方法画散点图

对Python 文件夹遍历和文件查找的实例讲解

MSSQL木马修复,中木马后的处理方法

Oracle以逗号分隔的字符串拆分为多行数据实例详解

Python如何生成exe文件?用Pycharm一步步带你学(超详细、超贴心)

解决tensorflow训练时内存持续增加并占满的问题

一些实用的sql语句

Python open读写文件实现脚本

动态刷新 dorado树的js代码

详解如何修改jupyter notebook的默认目录和默认浏览器

5个MySQL GUI工具推荐，帮助你进行数据库管理

python3实现简单飞机大战

微信小程序开发常用功能汇总

网页设计中HTML常范的五个错误

Mac下安装mysql5.7 完整步骤（图文详解）

Mac上安装MySQL过程分享

Flask框架实现的前端RSA加密与后端Python解密功能详解

Windows下MySQL安全权限设置方法

Go语言面试题之select和channel的用法

Go语言编程中判断文件是否存在是创建目录的方法