Pandas对DataFrame单列/多列进行运算(map, apply, transform, agg)

作者:BlankSeed 时间:2022-10-10 19:11:55 

1.单列运算

在Pandas中,DataFrame的一列就是一个Series, 可以通过map来对一列进行操作:


df['col2'] = df['col1'].map(lambda x: x**2)

其中lambda函数中的x代表当前元素。可以使用另外的函数来代替lambda函数,例如:


define square(x):
 return (x ** 2)

df['col2'] = df['col1'].map(square)

2.多列运算

 apply()会将待处理的对象拆分成多个片段,然后对各片段调用传入的函数,最后尝试将各片段组合到一起。

要对DataFrame的多个列同时进行运算,可以使用apply,例如col3 = col1 + 2 * col2:


df['col3'] = df.apply(lambda x: x['col1'] + 2 * x['col2'], axis=1)

其中x带表当前行,可以通过下标进行索引。

示例2


In [44]: f = lambda x : x.max()-x.min()

In [45]: df.apply(f)
Out[45]:
data1  5.042275
data2  1.967290
dtype: float64

In [46]: df.apply(f,axis=1)
Out[46]:
0  2.810074
1  1.009774
2  0.537183
3  0.813714
4  1.750022
dtype: float64

applymap()

用DataFrame的applymap方法,可以将函数应用到元素级的数据上。


In [47]: f = lambda x : x+1

In [48]: df.applymap(f)
Out[48]:
  data1   data2
0 -1.332263 1.477812
1 0.284755 1.294528
2 0.066644 0.603827
3 1.757402 2.571117
4 3.710012 1.959990

Series也有一个元素级函数应用的方法map


In [49]: df['data1']
Out[49]:
0  -2.332263
1  -0.715245
2  -0.933356
3  0.757402
4  2.710012
Name: data1, dtype: float64

In [50]: df['data1'].map(f)
Out[50]:
0  -1.332263
1  0.284755
2  0.066644
3  1.757402
4  3.710012
Name: data1, dtype: float64

3.分组运算

可以结合groupby与transform来方便地实现类似SQL中的聚合运算的操作:


df['col3'] = df.groupby('col1')['col2'].transform(lambda x: (x.sum() - x) / x.count())

在transform函数中x.sum()与x.count()与SQL类似,计算的是当前group中的和与数量,还可以将transform的结果作为一个一个映射来使用, 例如:


sumcount = df.groupby('col1')['col2'].transform(lambda x: x.sum() + x.count())
df['col1'].map(sumcount)

对col1进行一个map,得到对应的col2的运算值。

4.聚合函数

结合groupby与agg实现SQL中的分组聚合运算操作,需要使用相应的聚合函数:


df['col2'] = df.groupby('col1').agg({'col1':{'col1_mean': mean, 'col1_sum‘': sum}, 'col2': {'col2_count': count}})

上述代码生成了col1_mean, col1_sum与col2_count列。

示例2


In [52]: df.agg(['mean','sum'])
Out[52]:
    data1   data2
mean -0.102690 0.581455
sum -0.513449 2.907274

函数说明
count分组中非Nan值的数量
sum非Nan值的和
mean非Nan值的平均值
median非Nan值的算术中间数
std,var标准差、方差
min,max非Nan值的最小值和最大值
prob非Nan值的积
first,last第一个和最后一个非Nan值

来源:https://blog.csdn.net/zwhooo/article/details/79696558

标签:Pandas,map,apply,transform,agg
0
投稿

猜你喜欢

  • 段正淳的css笔记(5)未知图片垂直居中的方法

    2007-11-01 22:06:00
  • SqlServer数据库远程连接案例教程

    2024-01-21 10:16:08
  • 使用python爬取taptap网站游戏截图的步骤

    2021-09-17 07:44:34
  • 将python依赖包打包成window下可执行文件bat方式

    2022-01-25 08:11:43
  • python dumps和loads区别详解

    2021-07-25 19:34:53
  • 最新MySQL高级SQL语句大全

    2024-01-24 22:58:00
  • 38个Asp内置函数介绍

    2008-11-27 16:25:00
  • idea连接SQL Server数据库的详细图文教程

    2024-01-14 05:32:54
  • 如何将 awk 脚本移植到 Python

    2022-02-28 05:40:52
  • 人性化网页设计技巧

    2007-10-15 13:02:00
  • Go 语言前缀树实现敏感词检测

    2024-05-05 09:27:18
  • python实现录音功能(可随时停止录音)

    2023-07-29 05:15:06
  • Python如何使用cv2.canny进行图像边缘检测

    2021-03-11 20:38:12
  • Numpy中的repeat函数使用

    2023-03-06 19:16:38
  • 彻底弄懂CSS盒子模式之三(浮动的表演和清除的自述)

    2007-05-11 16:52:00
  • 在MySQL中使用子查询和标量子查询的基本操作教程

    2024-01-15 15:00:08
  • 用Python监控你的朋友都在浏览哪些网站?

    2022-10-20 00:37:07
  • Python爬虫包BeautifulSoup异常处理(二)

    2021-12-09 21:53:42
  • Django2.1.3 中间件使用详解

    2023-11-06 19:46:00
  • Java基于redis和mysql实现简单的秒杀(附demo)

    2024-01-16 16:55:13
  • asp之家 网络编程 m.aspxhome.com