Python脚本如何在bilibili中查找弹幕发送者

作者:dlpu_fan 时间:2021-05-18 21:46:15 

       总所周知bilibili是没有办法直接查看弹幕的发送者的,这使得当我们看到一些nt弹幕的时候虽然生气,却无可奈何,但是B站是可以屏蔽某个用户发送的弹幕的,这说明数据接口里肯定有用户信息,由于最近在学爬虫,所以我想先找找弹幕接口,分析下里面的数据。

找接口

       找接口当然是随便打开一个视频然后F12啦,可是当我找了两圈后我傻眼了,没找到啊。。得,不能把时间浪费在这种事情上,果断打开百度,不出所料,找到了如下的两个接口,都是XML格式网页

https://comment.bilibili.com/+cid
https://api.bilibili.com/x/v1/dm/list.so?oid=+cid

       这里面的cid是一种每个视频独有的数字,也就是每一P都有一个cid,查找cid可以打开网页然后F12,再ctrl+f搜索cid,一般八九位数的就是cid了。

       这里我找到了一个接口,可以通过aid找到cid

https://www.bilibili.com/widget/getPageList?aid=+aid

分析数据

       弹幕数据是获取到了,那么我们就要从这一堆数据中分析他们的用途了

Python脚本如何在bilibili中查找弹幕发送者

       这里大概能得到两个信息,其中第6个数据为时间戳第8个数据为用户uid的某种加密方式。经查询得到这是用户uid经过crc32校验得到的结果转为16进制数,所以只能通过uid得到对于的校验码,无法反推。。似乎只能通过彩虹表的方式查找数据了?那么这串8位16进制的数字在数据库中要用什么方式保存呢?
       选择似乎有varchar和bigint,由于B站有差不多6亿个用户,在6亿个数据中查找想要的字符串那速度必然很慢(但有人经测试得到varchar型数据和bigint型数据查找速度其实差的不多?)
       就在我决定用bigint储存数据时,我突然想到,8位16进制那就是2的32次方,int型的储存上限时2的31次方,如果用无符号的方式保存正好是2的32次方,也就是能储存到0xffffffff这么大的数据,正好满足要求。于是果断换成无符号int,与之对应的id也为无符号int,并将crc32b编码过后的数据作为主键,制成彩虹表存入我的服务器内。
       (粗略的算了一下,6亿数据就是需要27G左右的空间…而我的服务器一共才40G的大小…)

做成网页供大家使用

       接下来的操作似乎就水到渠成了,写了个python脚本,该python脚本接受2个参数,视频cid和想要搜索的弹幕关键字,返回用户发送的弹幕,用户的crc32b编码,时间戳。然后用php的exec函数执行python代码,并通过搜索数据库找出用户的uid,通过php返回json格式数据给前端。

python代码(写的很烂)


import requests
from bs4 import BeautifulSoup
import re
import io

import sys

sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')
req = requests.get('https://comment.bilibili.com/'+sys.argv[1]+'.xml')
req.encoding = req.apparent_encoding
soup = BeautifulSoup(req.text, 'html.parser').find_all(name='d')
result = ""
for i in soup:
s = re.sub('<(.*?)>', '', str(i))
index = 0
if(len(sys.argv[2])>0):
 index = s.find(str(sys.argv[2]))
if(index!=-1):
 result+=str(i).split(",")[6]+","+s+","+str(i).split(",")[4]+","
print(result)

效果展示

       前端代码就是随便写的~至少功能实现了嘛

Python脚本如何在bilibili中查找弹幕发送者Python脚本如何在bilibili中查找弹幕发送者

       这里说一下为什么是NULL,因为我的服务器还在可怜巴巴的往数据库内写入彩虹表数据。。预计需要4天~
       今天加了个暴力破解的功能,避免了查询结果为NULL,但是相对的查询速度会非常慢。

       最后!附上该工具的链接:点我

来源:https://blog.csdn.net/dlpu_fan/article/details/106387156

标签:bilibili,弹幕,发送者
0
投稿

猜你喜欢

  • 详谈python在windows中的文件路径问题

    2023-12-16 22:02:34
  • Go语言Grpc Stream的实现

    2023-08-07 06:19:23
  • python http通信接口开发示例

    2022-06-07 05:15:29
  • Python入门之布尔值详解

    2023-01-17 06:29:58
  • 三步实现Django Paginator分页的方法

    2022-09-22 20:15:31
  • Python安装selenium包详细过程

    2023-04-12 00:05:31
  • 树莓派使用python-librtmp实现rtmp推流h264的方法

    2021-10-24 13:50:15
  • Python反爬实战掌握酷狗音乐排行榜加密规则

    2021-05-29 08:05:57
  • 在Django中创建URLconf相关的通用视图的方法

    2021-09-17 06:07:58
  • 解决Python安装时报缺少DLL问题【两种解决方法】

    2023-12-27 01:49:12
  • pycharm第三方库安装失败的问题及解决经验分享

    2023-07-11 01:50:45
  • python实现引用其他路径包里面的模块

    2023-02-21 21:57:53
  • vue.js刷新当前页面的实例讲解

    2023-04-03 07:39:27
  • 使用python从三个角度解决josephus问题的方法

    2022-02-22 02:19:55
  • Python Pandas数据合并pd.merge用法详解

    2022-07-18 22:15:47
  • Python中的字典合并与列表合并技巧

    2021-01-02 06:07:35
  • python使用pil库实现图片合成实例代码

    2022-01-15 21:17:39
  • python中找出numpy array数组的最值及其索引方法

    2022-11-26 14:24:00
  • Python实现的读取文件内容并写入其他文件操作示例

    2021-10-11 02:27:02
  • CSS中expression的用法

    2008-09-11 14:18:00
  • asp之家 网络编程 m.aspxhome.com