写一个Python脚本自动爬取Bilibili小视频

作者：IT老实人( 时间：2022-04-29 04:10:48　

我身边的很多小伙伴们在朋友圈里面晒着出去游玩的照片，简直了，人多的不要不要的，长城被堵到水泄不通，老实人想想啊，既然人这么多，哪都不去也是件好事，没事还可以刷刷 B 站 23333 。这时候老实人也有了一个大胆地想法，能不能让这些在旅游景点排队的小伙伴们更快地打发时间呢？考虑到视频的娱乐性和大众观看量，我决定对 B 站新推出的小视频功能下手，于是我跑到B站去找API接口，果不起然，B站在小视频功能处提供了 API 接口，小伙伴们有福了哟！

B 站小视频网址在这里哦：

http://vc.bilibili.com/p/eden/rank#/?tab=全部

此次实验，我们爬取的是每日的小视频排行榜前 top100

我们该如何去爬取呢？？？

实验环境准备

Chrome 浏览器 (能使用开发者模式的浏览器都行)
Vim (编辑器任选，老实人比较喜欢Vim界面，所以才用这个啦)
Python3 开发环境
Kali Linux (其实随便一个操作系统都行啦)

API 寻找 && 提取

我们通过 F12 打开开发者模式，然后在 Networking -> Name 字段下找到这个链接：

我们可以看到Request URL这个属性值，我们向下滑动加载视频的过程中，发现只有这段url是不变的。

http://api.vc.bilibili.com/board/v1/ranking/top?

next_offset 会一直变化，我们可以猜测，这个可能就是获取下一个视频序号，我们只需要把这部分参数取出来，把 next_offset 写成变量值，用 JSON 的格式返回到目标网页即可。

代码实现

我们通过上面的尝试写了段代码，发现 B 站在一定程度上做了反爬虫操作，所以我们需要先获取 headers 信息，否则下载下来的视频是空的，然后定义 params 参数存储 JSON 数据，然后通过 requests.get 去获取其参数值信息，用 JSON 的格式返回到目标网页即可，实现代码如下：

def get_json(url):
headers = {
'User-Agent':
'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
}

params = {
'page_size': 10,
'next_offset': str(num),
'tag': '今日热门',
'platform': 'pc'
}

try:
html = requests.get(url,params=params,headers=headers)
return html.json()

except BaseException:
print('request error')
pass

为了能够清楚的看到我们下载的情况，我们折腾了一个下载器上去，实现代码如下：

def download(url,path):
start = time.time() # 开始时间
size = 0
headers = {
'User-Agent':
'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
}

response = requests.get(url,headers=headers,stream=True) # stream属性必须带上
chunk_size = 1024 # 每次下载的数据大小
content_size = int(response.headers['content-length']) # 总大小
if response.status_code == 200:
print('[文件大小]:％0.2f MB' ％(content_size / chunk_size / 1024)) # 换算单位
with open(path,'wb') as file:
for data in response.iter_content(chunk_size=chunk_size):
file.write(data)
size += len(data) # 已下载的文件大小

效果如下：

将上面的代码进行汇总，整个实现过程如下：

#!/usr/bin/env python
#-*-coding:utf-8-*-
import requests
import random
import time
def get_json(url):
headers = {
'User-Agent':
'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
}

params = {
'page_size': 10,
'next_offset': str(num),
'tag': '今日热门',
'platform': 'pc'
}

try:
html = requests.get(url,params=params,headers=headers)
return html.json()

except BaseException:
print('request error')
pass

def download(url,path):
start = time.time() # 开始时间
size = 0
headers = {
'User-Agent':
'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
}

response = requests.get(url,headers=headers,stream=True) # stream属性必须带上
chunk_size = 1024 # 每次下载的数据大小
content_size = int(response.headers['content-length']) # 总大小
if response.status_code == 200:
print('[文件大小]:％0.2f MB' ％(content_size / chunk_size / 1024)) # 换算单位
with open(path,'wb') as file:
for data in response.iter_content(chunk_size=chunk_size):
file.write(data)
size += len(data) # 已下载的文件大小

if __name__ == '__main__':
for i in range(10):
url = 'http://api.vc.bilibili.com/board/v1/ranking/top?'
num = i*10 + 1
html = get_json(url)
infos = html['data']['items']
for info in infos:
title = info['item']['description'] # 小视频的标题
video_url = info['item']['video_playurl'] # 小视频的下载链接
print(title)

# 为了防止有些视频没有提供下载链接的情况
try:
download(video_url,path='％s.mp4' ％title)
print('成功下载一个!')

except BaseException:
print('凉凉,下载失败')
pass

time.sleep(int(format(random.randint(2,8)))) # 设置随机等待时间

爬取效果图如下：

似乎爬取的效果还可以，当然喜欢的朋友不要忘记点赞分享转发哦。

项目链接

Github

来源：https://github.com/AngelKitty/bilibili-smallvideo

标签：Python,Bilibili,视频,爬虫

投稿

写一个Python脚本自动爬取Bilibili小视频

目录

实验环境准备

API 寻找 && 提取

代码实现

项目链接

猜你喜欢

python rolling regression. 使用 Python 实现滚动回归操作

装了 Access 2003 安全更新 (KB981716) 之后 Access 打不开

Python3.x版本中新的字符串格式化方法

使用python如何删除同一文件夹下相似的图片

Python网络爬虫信息提取mooc代码实例

python selenium UI自动化解决验证码的4种方法

ASP 使用三层架构 asp中使用类

python插入排序算法的实现代码

jupyter notebook oepncv 显示一张图像的实现

pandas去除重复列的实现方法

Javascript学习第一季一

在Python中使用M2Crypto模块实现AES加密的教程

Python获取文件所在目录和文件名的方法

深入浅析Python的类

python实现超市管理系统(后台管理)

Python机器学习之KNN近邻算法

python 日志增量抓取实现方法

利用python Pandas实现批量拆分Excel与合并Excel

Python pyinstaller库的安装配置教程分享

影响SEO的页面制作细节

写一个Python脚本自动爬取Bilibili小视频

目录

实验环境准备

API 寻找 && 提取

代码实现

项目链接

猜你喜欢

python rolling regression. 使用 Python 实现滚动回归操作

装了 Access 2003 安全更新 (KB981716) 之后 Access 打不开

Python3.x版本中新的字符串格式化方法

使用python如何删除同一文件夹下相似的图片

Python网络爬虫信息提取mooc代码实例

python selenium UI自动化解决验证码的4种方法

ASP 使用三层架构 asp中使用类

python插入排序算法的实现代码

jupyter notebook oepncv 显示一张图像的实现

pandas去除重复列的实现方法

Javascript学习第一季 一

在Python中使用M2Crypto模块实现AES加密的教程

Python获取文件所在目录和文件名的方法

深入浅析Python的类

python实现超市管理系统(后台管理)

Python机器学习之KNN近邻算法

python 日志增量抓取实现方法

利用python Pandas实现批量拆分Excel与合并Excel

Python pyinstaller库的安装配置教程分享

影响SEO的页面制作细节

Javascript学习第一季一