Python采集C站热榜数据实战示例

作者:极客飞虎 时间:2022-05-03 13:13:13 

前言

大家好,我们今天来爬取c站的热搜榜,把其文章名称,链接和作者获取下来,我们保存到本地,我们通过测试,发现其实很简单,我们只要简单获取数据就可以。没有加密的东西。

功能实现

我们话不多说,我们先找到url,也就是请求地址。我们代码如下:

url = 'https://blog.csdn.net/phoenix/web/blog/hot-rank?page=0&pageSize=25&type='
headers = {  
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36'}  
res = requests.get(url, headers=headers)

我们这里首先定义了一个 url 变量,它表示要访问的 URL。然后,它定义了一个 headers 变量,其中包含了一些 HTTP 请求头信息,如 User-Agent 表示 HTTP 请求的 User-Agent。最后,它使用 requests.get() 函数发送 HTTP GET 请求,并将 headers 变量作为参数传递给该函数。

解析数据

我们获取到了内容,接下来就是解析数据,我们不难发现这个是一个json数据,我们直接取值就好了,我们来看看代码怎么写。

datas = res.json()['data']  
for data in datas:    
   period = data['period']  
   nickName = data['nickName']  
   articleTitle = data['articleTitle']  
   articleDetailUrl = data['articleDetailUrl']  
   viewCount = data['viewCount']  
   commentCount = data['commentCount']  
   favorCount = data['favorCount']  
   hotRankScore = data['hotRankScore']
   print(period,nickName,articleTitle,avatarUrl,viewCount,favorCount,commentCount,hotRankScore)

我们将从 res.json() 中获取 data 数据,并将其存储在 datas 变量中。res.json() 返回的是一个包含多个字典的对象,每个字典代表一个数据。

在这个例子中,res.json() 返回的字典中的 data 字段的值为 [{'period': '1', 'nickName': '', 'articleTitle': '', 'articleDetailUrl': '', 'viewCount': '', 'commentCount': '', 'favorCount': '', 'hotRankScore': '0.08536632385314886', 'avatarUrl': 'null', 'viewCount': '0', 'favorCount': '0', 'commentCount': '0', 'hotRankScore': '0.08536633735229816'}],我们使用这个数据来遍历 datas 变量中的每个字典。

在每个字典中,我们使用 data 字段的值来获取期数、昵称、标题、详细URL、访问次数、评论次数、喜欢次数、热门排名分数。

保存数据

now_time =time.strftime('%Y-%m-%d-%H-%M',time.localtime(time.time()))  
f = open(f'{now_time}热榜数据.csv', mode='a', encoding='utf-8', newline='')  
csv_writer = csv.DictWriter(f, fieldnames=['日期', '姓名', '文章标题', '文章链接', '浏览量',  
'评论量', '收藏量', '热榜值'])  
csv_writer.writeheader()

我们首先打开一个名为 data.csv 的文件,并指定使用 a 模式打开文件。然后,使用 csv.DictWriter() 函数创建一个 CSV 写入器,并指定要写入的列名。在这个例子中,我们指定了 fieldnames 参数,它包含了我们要写入的列名。

接下来,我们使用 csv_writer.writeheader() 方法写入列名。这个方法会将列名写入文件的第一行。

最后,我们使用 csv_writer.writerow() 方法写入数据。

我们先写入字典。

dit = {'日期': period, '姓名': nickName, '文章标题': articleTitle, '文章链接': articleDetailUrl, '浏览量': viewCount,  
'评论量': commentCount, '收藏量': favorCount, '热榜值': hotRankScore}  
print(dit)  
csv_writer.writerow(dit)

这段代码创建了一个字典dit,其中包含了每个元素的值。然后,它使用csv_writer.writerow()方法将字典写入CSV文件中。

来源:https://juejin.cn/post/7228547895854334009

标签:Python,C站,热榜,数据采集
0
投稿

猜你喜欢

  • Python学习之异常中的finally使用详解

    2021-09-08 02:21:38
  • java正则表达式之Pattern与Matcher类详解

    2023-06-21 10:14:03
  • Flash的Fallback Content等

    2010-04-01 12:18:00
  • python 对txt中每行内容进行批量替换的方法

    2022-12-29 21:37:45
  • css设计的具有亲和力的表格

    2008-03-16 19:28:00
  • 轻松掌握MySQL数据库锁机制的相关原理

    2008-12-17 15:23:00
  • MySQL数据库只监听某个特定地址的方法

    2008-12-05 16:11:00
  • Web标准之路 勿使用W3C废弃的元素

    2009-07-13 12:25:00
  • php floor()函数案例详解

    2023-06-14 16:13:03
  • 采用XMLHTTP编写一个天气预报的程序

    2007-10-15 12:35:00
  • javascript结合canvas实现图片旋转效果

    2023-08-07 23:47:59
  • asp如何设置cookie的过期时间

    2008-02-29 13:36:00
  • Python全栈之文件函数和函数参数

    2023-05-11 02:28:21
  • 使用python进行文本预处理和提取特征的实例

    2022-07-13 21:25:47
  • XML简易教程之二

    2008-09-05 17:19:00
  • JS数组方法汇总

    2009-08-03 14:06:00
  • 在Python中使用M2Crypto模块实现AES加密的教程

    2022-09-29 17:43:59
  • php入门学习知识点三 PHP上传

    2023-11-23 12:10:49
  • python通过opencv调用摄像头操作实例分析

    2023-03-09 14:32:04
  • python微信跳一跳系列之棋子定位颜色识别

    2023-01-16 04:52:49
  • asp之家 网络编程 m.aspxhome.com