Pandas分组聚合之groupby()、agg()方法的使用教程

作者:胡桃の壶 时间:2021-07-07 00:29:55 

创建一个dataframe结构

import pandas as pd

df = pd.DataFrame(
   data={
       'name': ['z_s', 'l_s', 'w_w', 'z_l', 'y_s', 'j_j', 'l_b', 'z_f', 'hs_q', 'lbl_k', 'qy_n', 'mg_n'],
       'score': [100, 97, 98, 89, 67, 59, 29, 87, 78, 89, 88, 80],
       'group': [1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2],
       'cls': ['A', 'A', 'A', 'B', 'B', 'B', 'A', 'A', 'A', 'B', 'B', 'B'],
       'height': [178.0, 180.0, 176.0, 182.0, 189.0, 190.0, 172.5, 175.0, 165.0, 160.0, 158.5, 159.0]
   },
   index=['stu_' + str(i) for i in np.arange(1, 13, 1)]
)
print('df:\n', df)

Pandas分组聚合之groupby()、agg()方法的使用教程

分组函数 groupby()

初识分组聚合

我们可以通过DataFrame.groupby(by=[”column“]) 方法对数据进行分组,再根据需求进行 聚合操作。

统计各个班的最高的成绩:

# 先按照班级进行分组,再统计各个组里面的成绩的最大值!
ret = df.groupby(by=['cls'])['score'].max().reset_index()
print('ret:\n', ret)

Pandas分组聚合之groupby()、agg()方法的使用教程

分开来看就是:

ret = df.groupby(by=['cls'])# 将数据以 cls 进行分组,返回 DataFrameGroupBy 对象
print(ret)# <pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002B6B2003A60>
ret = ret['score']# 取出 score 列,返回 SeriesGroupBy 对象
print(ret)# <pandas.core.groupby.generic.SeriesGroupBy object at 0x000002B6B59EAFD0>
ret = ret.max()# 取出 score 中的最大值,返回 Series 对象
print(ret)
"""
cls
A    100
B     89
Name: score, dtype: int64
"""
ret = ret.reset_index()# 重设索引,返回 DataFrame 对象
print(ret)
"""
 cls  score
0   A    100
1   B     89
"""

多重行索引分组聚合

统计各个班的各个小组的最高成绩

# 先按照班级分组,再按照小组分组,最后统计各个小组内成绩的最大值
ret = df.groupby(by=['cls', 'group'])['score'].max()
print('ret:\n', ret)
print('index:\n', ret.index)# MultiIndex ---多重行索引
ret = ret.reset_index()# 重设索引
print(ret)

Pandas分组聚合之groupby()、agg()方法的使用教程

对多列数据进行分组聚合

统计各个班级的成绩、身高的平均值:

# 按照班级分组,统计各个组内 成绩、身高的平均值
ret = df.groupby(by=['cls'])[['score', 'height']].mean().reset_index()
print('ret:\n', ret)

Pandas分组聚合之groupby()、agg()方法的使用教程

综合应用

统计各个班级、各个小组的成绩、身高的平均值

# 先按照班级分组、再按照小组分组---统计各个小组内的成绩的平均值、身高的平均值
ret = df.groupby(by=['cls', 'group'])[['score', 'height']].mean().reset_index()
print('ret:\n', ret)

Pandas分组聚合之groupby()、agg()方法的使用教程

聚合函数 agg(aggregate)

在Pandas中,aggaggregate两个函数指向同一个方法,使用时写任意一个即可。

求 多列数据 的 多个指标

统计成绩、身高的最大值、均值

# 使用agg 方法 可以对多列数据一次性求出多个指标
ret = df.loc[:, ['score', 'height']].agg([np.max, np.mean])
print('ret:\n', ret)

Pandas分组聚合之groupby()、agg()方法的使用教程

对多列数据统计不同的指标

统计成绩的均值、同时统计身高的最大值

ret = df.agg({'score': [np.mean], 'height': [np.max]})
print('ret:\n',ret)

Pandas分组聚合之groupby()、agg()方法的使用教程

对多列数据统计不同个数的指标

统计成绩的均值、最大值、中位数 和 身高的均值

ret = df.agg({'score': [np.mean, np.max, np.median], 'height': [np.mean]})
print('ret:\n', ret)

Pandas分组聚合之groupby()、agg()方法的使用教程

使用agg 方法也可以配合着 分组 对不同列、不同的数据、统计不同个数的 不同指标!

ret = df.groupby(by=['cls']).agg({'height': [np.max,np.mean], 'score': [np.min]})
print('ret:\n', ret)

Pandas分组聚合之groupby()、agg()方法的使用教程

agg调用 自定义函数

ret = df.loc[:, 'score'].agg(lambda x: x + 1)
print('ret1:\n', ret)

def func_add_one(x):
   return x + 1

ret = df.loc[:, 'score'].agg(func_add_one)
print('ret2:\n', ret)

# 对多列 使用自定义函数
ret = df.loc[:, ['score', 'height']].agg(func_add_one)
print('ret3:\n', ret)

Pandas分组聚合之groupby()、agg()方法的使用教程

使用agg 调用numpy的统计指标

# 统计所有同学成绩的和
ret = df.loc[:, 'score'].agg(np.sum)
print('ret:\n',ret)
print('type:\n',type(ret))

# # 统计所有同学 成绩以及身高 的和
ret = df.loc[:, ['score', 'height']].agg(np.sum)
print('ret:\n', ret)
print('type:\n',type(ret))

# 统计身高 + 成绩(无意义的,只是为了演示能够 同一行相加)
ret = df.loc[:, ['score', 'height']].agg(np.sum, axis=1)# 使用axis指定相加的方向
print('ret:\n', ret)
print('type:\n',type(ret))

Pandas分组聚合之groupby()、agg()方法的使用教程

除了以上方法之外,还可以使用自定义方法聚合,可以参见我的这篇文章:Pandas使用自定义方法

来源:https://blog.csdn.net/weixin_45760274/article/details/123511623

标签:pandas,groupby(),agg()
0
投稿

猜你喜欢

  • 使用post方法实现json往返传输数据的方法

    2024-04-18 09:28:23
  • Python绘图示例程序中的几个语法糖果你知道吗

    2021-01-18 17:15:25
  • 学习Python爬虫前必掌握知识点

    2022-10-09 04:32:57
  • asp如何设定程序的执行次数?

    2010-05-18 18:31:00
  • 仅IE9/10同时支持script元素的onload和onreadystatechange事件分析

    2024-04-16 09:27:54
  • 解读ASP.NET 5 & MVC6系列教程(13):TagHelper

    2024-05-03 15:30:35
  • 一文搞懂Python中subprocess模块的使用

    2023-12-05 16:35:05
  • python调用Moxa PCOMM Lite通过串口Ymodem协议实现发送文件

    2023-09-08 09:30:22
  • Python循环实现n的全排列功能

    2022-08-15 21:04:08
  • 基于Python的自媒体小助手---登录页面的实现代码

    2021-12-27 16:46:17
  • 基于python的selenium两种文件上传操作实现详解

    2022-01-31 23:02:17
  • python使用socket进行简单网络连接的方法

    2021-05-16 22:53:03
  • javascript格式化json显示实例分析

    2024-05-22 10:31:14
  • JavaScript封装弹框插件的方法

    2024-04-30 10:20:32
  • 利用WebBrowser彻底解决Web打印问题(包括后台打印)

    2024-04-27 15:17:55
  • Javascript 动画初探(原理)

    2009-02-06 15:53:00
  • Python利用imshow制作自定义渐变填充柱状图(colorbar)

    2023-07-14 00:27:57
  • python实现可视化动态CPU性能监控

    2023-08-08 10:23:52
  • python Django编写接口并用Jmeter测试的方法

    2021-12-07 21:47:09
  • 网页栅格系统研究:960的秘密

    2008-10-24 17:03:00
  • asp之家 网络编程 m.aspxhome.com