Python爬虫自动化爬取b站实时弹幕实例方法
作者:宋宋大人 时间:2023-03-21 04:45:42
最近央视新闻记者王冰冰以清除可爱和专业的新闻业务水平深受众多网友喜爱,b站也有很多up主剪辑了关于王冰冰的视频。我们都是知道b站是一个弹幕网站,那你知道如何爬取b站实时弹幕吗?本文以王冰冰视频弹幕为例,向大家介绍Python爬虫实现自动化爬取b站实时弹幕的过程。
1、导入需要的库
import jieba # 分词
from wordcloud import WordCloud # 词云
from PIL import Image # 图片处理
import numpy as np # 图片处理
import matplotlib.pyplot as plt # 画图
2、 jieba分词
所谓的分词就是将一句话分成一个或几个词语的形式,
分词代码
# 读取停用词库,注意编码应为‘utf8'
f = open('小夜斗的停用词表.txt', encoding='utf8')
stopwords = f.read().split('\n')
print(stopwords) # 打印停用词
f.close() # 关闭停用词文件
3、打印出的为一个停用词列表
with open("冰冰vlog2.txt", "r", encoding='utf8') as fp:
text = fp.read()
4、读取冰冰弹幕数据文件的操作,将其保存到text变量中
segs = jieba.cut(text) # 进行jieba分词
mytext_list = [] # 构建一个容纳过滤掉停用词的冰冰弹幕数据文件
# 文本清洗
for seg in segs: # 循环遍历每一个分词文本
# 如果该词不属于停用词表 并且非空 长度不为1
if seg not in stopwords and seg != "" and len(seg) != 1:
# 将该词语添加到mytext_list列表中
mytext_list.append(seg.replace(" ", ""))
print(mytext_list) # 打印过滤后的冰冰弹幕数据
5、获取过滤停用词后的冰冰弹幕数据
cloud_text = ",".join(mytext_list) # 连接列表里面的词语
print(cloud_text)
来源:https://www.py.cn/spider/guide/23296.html
标签:Python爬虫,b站弹幕
![](/images/zang.png)
![](/images/jiucuo.png)
猜你喜欢
如何在ADO服务器端利用好缓存技术?
2010-06-17 12:49:00
一个简单安全的PHP验证码类 附调用方法
2024-06-05 09:40:07
![](https://img.aspxhome.com/file/2023/8/122528_0s.jpg)
python中sys模块的介绍与实例
2022-11-29 12:37:51
一键搞定python连接mysql驱动有关问题(windows版本)
2024-01-18 05:43:29
详解Go语言中泛型的实现原理与使用
2024-02-06 08:30:15
JavaScript实现图片自动加载的瀑布流效果
2024-06-05 09:13:43
![](https://img.aspxhome.com/file/2023/3/123373_0s.jpg)
python的concat等多种用法详解
2022-08-14 23:37:18
HTTP提交方式之PUT详细介绍及POST和PUT的区别
2022-08-21 16:23:44
Python定制类你不知道的魔术方法
2022-10-26 11:26:40
![](https://img.aspxhome.com/file/2023/1/124721_0s.png)
Python进行特征提取的示例代码
2021-04-07 15:59:12
详解MySQL插入和查询数据的相关命令及语句使用
2024-01-19 00:34:20
![](https://img.aspxhome.com/file/2023/5/121295_0s.png)
天极产品设计流程
2007-10-11 18:47:00
![](https://img.aspxhome.com/file/UploadPic/200710/11/20071011184910229s.jpg)
使用 Python 实现文件递归遍历的三种方式
2022-08-19 18:49:08
pytorch从头开始搭建UNet++的过程详解
2023-03-11 09:19:24
![](https://img.aspxhome.com/file/2023/9/132369_0s.jpg)
javascript过滤数组重复元素的实现方法
2023-09-08 00:41:21
利用Python如何画一颗心、小人发射爱心
2021-01-11 09:11:50
![](https://img.aspxhome.com/file/2023/7/95887_0s.png)
Java字符串 正则表达式详解
2023-07-16 12:30:35
Python实现异步IO的示例
2021-01-11 13:25:38
![](https://img.aspxhome.com/file/2023/4/102964_0s.jpg)
python密码学库pynacl功能介绍
2021-03-07 01:29:44
SQL语句练习实例之五 WMS系统中的关于LIFO或FIFO的问题分析
2011-11-03 16:59:59