pandas数据预处理之dataframe的groupby操作方法
作者:STHSF 时间:2022-07-07 19:27:56
在数据预处理过程中可能会遇到这样的问题,如下图:数据中某一个key有多组数据,如何分别对每个key进行相同的运算?
dataframe里面给出了一个group by的一个操作,对于”group by”操作,我们通常是指以下一个或多个操作步骤:
l (Splitting)按照一些规则将数据分为不同的组;
l (Applying)对于每组数据分别执行一个函数;
l (Combining)将结果组合到一个数据结构中;
使用dataframe实现groupby的用法:
# -*- coding: UTF-8 -*-
import pandas as pd
df = pd.DataFrame([{'col1':'a', 'col2':1, 'col3':'aa'}, {'col1':'b', 'col2':2, 'col3':'bb'}, {'col1':'c', 'col2':3, 'col3':'cc'}, {'col1':'a', 'col2':44, 'col3':'aa'}])
print df
# 按col1分组并按col2求和
print df.groupby(by='col1').agg({'col2':sum}).reset_index()
# 按col1分组并按col2求最值
print df.groupby(by='col1').agg({'col2':['max', 'min']}).reset_index()
# 按col1 ,col3分组并按col2求和
print df.groupby(by=['col1', 'col3']).agg({'col2':sum}).reset_index()
输出结果为:
col1 col2 col3
0 a 1 aa
1 b 2 bb
2 c 3 cc
3 a 44 aa
col1 col2
0 a 45
1 b 2
2 c 3
col1 col2
max min
0 a 44 1
1 b 2 2
2 c 3 3
col1 col3 col2
0 a aa 45
1 b bb 2
2 c cc 3
注意点:
代码中调用了reset_index() 函数, 如果不使用这个函数输出的结果将是:
col2
col1
a 45
b 2
c 3
col2
max min
col1
a 44 1
b 2 2
c 3 3
col2
col1 col3
a aa 45
b bb 2
c cc 3
上下两个结果还是有区别的,但是具体区别暂时不太清楚,不过下面的一种输出结果是不能跟使用df['col1']来提取第一列的。至于是什么原因暂时还不清楚,如果您对pandas比较理解或者知道原因,欢迎在评论中留言。
来源:https://blog.csdn.net/u013041398/article/details/71118560
标签:pandas,dataframe,groupby
0
投稿
猜你喜欢
《色彩解答》系列之一 色彩层次
2008-02-17 14:26:00
Go语言文件读取的一些总结
2024-04-27 15:30:45
详解SQL Server中数据库快照工作原理
2009-01-21 14:18:00
让你的空间支持域名绑定子目录的解决办法
2010-09-15 10:03:00
Apache下禁止特定目录执行PHP 提高服务器安全性
2023-10-25 20:10:50
python 如何在 Matplotlib 中绘制垂直线
2021-05-29 05:38:10
详解thinkphp+redis+队列的实现代码
2024-05-11 10:08:34
基于python爬虫数据处理(详解)
2023-06-07 11:38:39
使用php+swoole对client数据实时更新(一)
2024-05-03 15:13:08
对numpy下的轴交换transpose和swapaxes的示例解读
2022-09-11 10:30:51
python追加元素到列表的方法
2023-07-08 14:29:47
Go语言流程控制之goto语句与无限循环
2023-08-31 06:43:00
交互设计:简单
2011-08-27 16:46:27
如何利用Python解析超大的json数据(GB级别)
2023-03-22 12:08:21
python查找特定名称文件并按序号、文件名分行打印输出的方法
2023-11-27 03:35:35
详解Python当中的字符串和编码
2021-05-26 07:07:39
Python处理键映射值操作详解
2021-03-21 03:14:53
Python基础必备之语法结构详解
2023-12-07 05:29:06
Python 读取某个目录下所有的文件实例
2022-08-27 20:04:13
Golang自定义结构体转map的操作
2024-05-08 10:21:39