Python爬取奶茶店数据分析哪家最好喝以及性价比

作者:蚂蚁爱Python 时间:2021-02-19 08:41:45 

序篇

天气真的很热啊… 很想有一杯冰冰凉凉的奶茶来解渴~

但是现在奶茶店这么多, 到底哪一家最好喝、性价比最高呢?

数据获取

本文抓取了12个热门城市的奶茶店名单,

城市包括:北京、上海、广州、深圳、天津、西安、重庆、杭州、南京、武汉、成都和长沙。

共计68614家奶茶店,3万多个奶茶品牌。

在构建抓取URL时,

需要注意将城市的维度具体到城市商圈,

因为每个URL最多只显示32页内容,

保证抓取每个城市时的数据量是准确的。

Python爬取奶茶店数据分析哪家最好喝以及性价比

# 构建抓取URL
def get_url_1():
   for city,city_code in city_dict.items():
       for block_dict in area_dict[city]:
           for children in block_dict['children']:
               for page in range(1,33):
                   block_code = children['id']
                   offset = 32 * (page-1)
                   # print(city, area, block, block_code)
                   url = 'https://apimobile.meituan.com/group/v4/poi/pcsearch/{}?uuid=6ddabcb37fdd4a8e9cdf.1599125825.1.0.0&userid=280531290&limit=32&offset={}&cateId=-1&q=奶茶果汁&areaId={}&sort=solds'.format(city_code,offset,block_code)
                   redis_db.sadd('meituan_milk', url)

数据清洗

数据清洗部分,主要清洗了奶茶店铺名称,

但是同一个奶茶品牌会有多种格式,如1点点和1點點,

大卡司和大卡司DAKASI。

由于奶茶品牌数量众多,

并且真假难辨,所以只能进行针对性清洗,

对部分名气高的奶茶品牌名称要保证其统一。

# 清洗字段
def clean(x):
   title = re.sub(u"(.*?)", "", x['title'])
   title = title.replace('點點','点点').replace('(','').replace(')','')
   title = title.replace('一点点','1点点')
   if '一杯会说话的茶' in title:
       title = '1314一杯会说话的茶'
   elif '大卡司' in title:
       title = '大卡司DAKASI'
   elif '1点点' in title:
       title = '1点点'
   elif '都可' in title:
       title = 'CoCo都可'
   elif '书亦烧仙草' in title:
       title = '书亦烧仙草'
   elif '蜜雪冰城' in title:
       title = '蜜雪冰城'
   elif 'royal' in title or 'Royal' in title or 'ROYAL' in title:
       title = 'Royaltea皇茶'
   elif 'ALS' in title:
       title = 'ALS GONG CHA贡茶'
   elif 'GONG' in title:
       title = '贡茶'
   elif '茶百道' in title:
       title = '茶百道'
   elif '吾饮良品' in title:
       title = '吾饮良品'
   elif '悸动烧仙草' in title:
       title = '悸动烧仙草'
   elif '沪上阿姨' in title:
       title = '沪上阿姨'
   elif '7分甜' in title:
       title = '7分甜'
   elif '古茗' in title:
       title = '古茗'
   elif '奈雪' in title:
       title = '奈雪の茶'
   elif '悦色' in title:
       title = '茶颜悦色'
   else:
       pass
   return title
df['title'] = df.apply(clean, axis=1)

数据可视化

当小编在制作可视化图表的时候,

会发现有些奶茶品牌的名称极为相似,

让人有一种傻傻分不清楚的感觉。

Python爬取奶茶店数据分析哪家最好喝以及性价比

热门城市奶茶店铺数量情况

从全国12个热门城市来看奶茶店铺数量分布情况,

广州的店铺数量是最多的,拥有11419家,

之后是深圳(9367家)、上海(7940家)、成都(7361家)。

Python爬取奶茶店数据分析哪家最好喝以及性价比

特色奶茶分布情况

有些奶茶店很有自己的地域特色,

如果你想品尝它们的原版奶茶,

就可能需要跑到别的城市才能喝到,

因为它们大部分分店都只开在本土城市。

Python爬取奶茶店数据分析哪家最好喝以及性价比

大众奶茶分布情况

接下来介绍一下大众奶茶中的1点点,CoCo,书亦烧仙草和益禾堂的热门城市分布情况,

1点点和CoCo在上海的分店数量都是最多的,而书亦烧仙草在成都和长 * 较普遍,益禾堂则是在广州和深圳。

这4家奶茶品牌在广州分店数量均有上百家,也难怪走到哪都能看到这几家奶茶店。

Python爬取奶茶店数据分析哪家最好喝以及性价比

来源:https://blog.csdn.net/xff123456_/article/details/126934858

标签:Python,奶茶店,数据,爬虫
0
投稿

猜你喜欢

  • Python绘制灯笼的示例代码

    2022-02-24 23:10:35
  • asp检测文件编码方法

    2007-10-03 14:27:00
  • Pytorch Tensor基本数学运算详解

    2022-12-09 03:26:50
  • 关于Keras模型可视化教程及关键问题的解决

    2021-03-19 10:39:07
  • python标准库之time模块的语法与简单使用

    2023-06-11 17:42:23
  • python opencv调用笔记本摄像头

    2022-07-19 14:03:34
  • Python 格式化输出字符串的方法(输出字符串+数字的几种方法)

    2021-05-03 21:25:00
  • Python实现文件按照日期命名的方法

    2022-10-25 19:40:09
  • 教你如何使用php session

    2023-11-15 06:28:01
  • 详解用python自制微信机器人,定时发送天气预报

    2023-05-12 14:27:29
  • 怎样使用 SQL Server 数据库嵌套子查询

    2009-02-05 15:26:00
  • ASP动态页服务器端的处理原理

    2007-09-14 10:07:00
  • Oracle数据操作和控制语言详解

    2008-01-16 19:18:00
  • 给页面加上Loading效果最简单实用的办法

    2008-11-20 11:58:00
  • Python内建类型float源码学习

    2022-05-05 17:07:37
  • pytorch中tensor的合并与截取方法

    2022-02-11 14:16:58
  • 使用javascript修复浏览器中12个常见而又头痛的问题

    2008-10-28 19:38:00
  • Keras中的多分类损失函数用法categorical_crossentropy

    2023-06-23 12:25:37
  • python argparse 模块命令行参数用法及说明

    2023-10-26 00:08:27
  • pandas 对日期类型数据的处理方法详解

    2021-12-02 04:43:56
  • asp之家 网络编程 m.aspxhome.com