Python爬虫自动化爬取b站实时弹幕实例方法
作者:宋宋大人 发布时间:2023-03-21 04:45:42
标签:Python爬虫,b站弹幕
最近央视新闻记者王冰冰以清除可爱和专业的新闻业务水平深受众多网友喜爱,b站也有很多up主剪辑了关于王冰冰的视频。我们都是知道b站是一个弹幕网站,那你知道如何爬取b站实时弹幕吗?本文以王冰冰视频弹幕为例,向大家介绍Python爬虫实现自动化爬取b站实时弹幕的过程。
1、导入需要的库
import jieba # 分词
from wordcloud import WordCloud # 词云
from PIL import Image # 图片处理
import numpy as np # 图片处理
import matplotlib.pyplot as plt # 画图
2、 jieba分词
所谓的分词就是将一句话分成一个或几个词语的形式,
分词代码
# 读取停用词库,注意编码应为‘utf8'
f = open('小夜斗的停用词表.txt', encoding='utf8')
stopwords = f.read().split('\n')
print(stopwords) # 打印停用词
f.close() # 关闭停用词文件
3、打印出的为一个停用词列表
with open("冰冰vlog2.txt", "r", encoding='utf8') as fp:
text = fp.read()
4、读取冰冰弹幕数据文件的操作,将其保存到text变量中
segs = jieba.cut(text) # 进行jieba分词
mytext_list = [] # 构建一个容纳过滤掉停用词的冰冰弹幕数据文件
# 文本清洗
for seg in segs: # 循环遍历每一个分词文本
# 如果该词不属于停用词表 并且非空 长度不为1
if seg not in stopwords and seg != "" and len(seg) != 1:
# 将该词语添加到mytext_list列表中
mytext_list.append(seg.replace(" ", ""))
print(mytext_list) # 打印过滤后的冰冰弹幕数据
5、获取过滤停用词后的冰冰弹幕数据
cloud_text = ",".join(mytext_list) # 连接列表里面的词语
print(cloud_text)
来源:https://www.py.cn/spider/guide/23296.html


猜你喜欢
- 上一篇文章讲解了重置 MySQL 的密码,有同学反馈无法程连接到数据库,这是因为 MySQL 安装完成后只支持 localhost 访问,我
- 本文将讲述vue-cli+vux-scroller实现移动端的上拉加载功能:纠错声明:网上查阅资料看到很多人都将vux和vuex弄混,在这里
- element-ui中el-form自定义验证需求在输入项目名称后,调用后端接口isNameOnly,若已存在,则效果如下图:1.先设置校验
- AJAX简介AJAX = Asynchronous JavaScript and XML(异步的 JavaScript 和 XML)。AJA
- 快速搭建scrapy开发环境pythonpippip百度网盘注:不同的电脑上所带有环境不同,安装方式有些许差别1、成功安装python并添加
- 由于课题的原因,笔者主要通过 Pytorch 框架进行深度学习相关的学习和实验。在运行和学习网络上的 Pytorch 应用代码的过程中,不少
- Excel中的一些概念一个excel文件中可以包含多个sheet,一个sheet可以理解成一个表格表格的每一行称为 Row表格的每一行中的任
- You have an error in your SQL syntax; check the manual that correspond
- 1. 场景大家好,我是J哥。前段时间有人私信我,说自己辛辛苦苦剪辑的短视频,上传到某平台后,由于播放量太大,收到 降权 的通知,直接导致这个
- 一、前言预处理建议仔细看完本文章之后在进行操作,避免失误,本环境可以用于生产环境,有利于生产环境python之间的环境隔离,互相不会产生环境
- Facebook的网站速度做为最关键的公司任务之一。在2009年,我们成功地实现了Facebook网站速度提升两倍 。而正是我们的工程师团队
- cv2.getStructuringElement()函数的作用是返回一个结构元素(卷积核),具体解析如下:kernel = cv2.get
- 我们知道Vscode是一款强大的编辑器,我们可以通过商城里面的插件扩展来写C/C++/python/java等。同样Vscode支持SQL语
- 一、外键设置方法1、在MySQL中,为了把2个表关联起来,会用到2个重要的功能:外键(FOREIGN KEY)和连接(JOIN)。外键需要在
- 一. meta方法打包好的入口index.html头部加入<META HTTP-EQUIV="pragma" CO
- Python是数据分析的强大利器。利用Python做数据分析,第一步就是学习如何读取日常工作中产生各种excel报表并存入数据中,方便后续数
- 本文实例讲述了Python实现压缩与解压gzip大文件的方法。分享给大家供大家参考,具体如下:#encoding=utf-8#author:
- python清空命令行 !有时我们在命令行上运行一些代码时,觉得有些冗余了,可以通过以下代码进行清除命令行上的代码。import osdef
- 本文实例讲述了Python常见数据类型转换操作。分享给大家供大家参考,具体如下:类型转换主要针对几种存储工具:list、tuple、dict
- 前言ppi-cpi 剪刀差大家可能都听说过,通过这个指标可以了解当前的经济运行状况,小编为了学习 python 的图形绘制,通过爬