Pandas计算元素的数量和频率的方法(出现的次数)
作者:饺子大人 发布时间:2023-01-02 03:44:58
在pandas.Series的pandas.DataFrame列中,将描述获取唯一元素数(不包括重复项的案例数)和每个元素的出现频率(出现数)的方法。
使用pandas.Series方法的unique(),value_counts()和nunique()。还提供了nunique()作为pandas.DataFrame的方法。
在这里:
pandas.Series.unique():返回NumPy数组ndarray中唯一元素值的列表
pandas.Series.value_counts():返回唯一元素的值及其在出现的次数。
pandas.Series.nunique(), pandas.DataFrame.nunique():返回int,pandas.Series中唯一元素的数量。
在解释了基本用法之后,对一下内容进行介绍。
唯一元素的数量(不包括重复项的)
唯一元素值列表
唯一元素的频率(出现次数)
独特元素及其出现的字典
模式及其频率
归一化频率
以下面的数据为例。
import pandas as pd
import numpy as np
df = pd.read_csv('./data/15/sample_pandas_normal.csv')
df.iloc[1] = np.nan
print(df)
# name age state point
# 0 Alice 24.0 NY 64.0
# 1 NaN NaN NaN NaN
# 2 Charlie 18.0 CA 70.0
# 3 Dave 68.0 TX 70.0
# 4 Ellen 24.0 CA 88.0
# 5 Frank 30.0 NY 57.0
pandas.Series.unique():返回NumPy数组ndarray中唯一元素值的列表
unique()返回唯一元素值的列表。一维NumPy数组ndarray类型而不是列表类型(Python内置类型)。还包括缺失值NaN。
u = df['state'].unique()
print(u)
print(type(u))
# ['NY' nan 'CA' 'TX']
# <class 'numpy.ndarray'>
pandas.Series.value_counts():返回唯一元素的值及其在出现的次数。
value_counts()返回pandas.Series,其中唯一元素的值是index,出现的次数是data。当需要元素的频率(出现次数)时使用此选项。
vc = df['state'].value_counts()
print(vc)
print(type(vc))
# NY 2
# CA 2
# TX 1
# Name: state, dtype: int64
# <class 'pandas.core.series.Series'>
默认情况下,它按出现次数的降序排序,但是如果参数ascending = True,则以升序排序,如果参数sort = False,则不进行排序。
print(df['state'].value_counts(ascending=True))
# TX 1
# CA 2
# NY 2
# Name: state, dtype: int64
print(df['state'].value_counts(sort=False))
# CA 2
# NY 2
# TX 1
# Name: state, dtype: int64
默认情况下,NaN被排除,但如果参数dropna = False,则也计入NaN。
print(df['state'].value_counts(dropna=False))
# NY 2
# CA 2
# TX 1
# NaN 1
# Name: state, dtype: int64
如果指定了参数normalize = True,则将值归一化,以使总数变为1。
请注意,如果包含缺失值NaN,则该值将根据参数dropna的设置而有所不同。
print(df['state'].value_counts(dropna=False, normalize=True))
# NY 0.333333
# CA 0.333333
# TX 0.166667
# NaN 0.166667
# Name: state, dtype: float64
pandas.Series.nunique(), pandas.DataFrame.nunique():返回int,pandas.Series中唯一元素的数量。
pandas.Series.nunique()以整数int形式返回唯一元素的数量。
默认情况下,不包含NaN,并且如果指定了参数dropna = False,则结果还将包含NaN。
nu = df['state'].nunique()
print(nu)
print(type(nu))
# 3
# <class 'int'>
print(df['state'].nunique(dropna=False))
# 4
pandas.DataFrame.nunique()计算每列的唯一元素数。返回pandas.Series类型。
默认情况下,不包含NaN,并且如果指定了参数dropna = False,则结果还将包含NaN。
默认情况下,该值为每列,但是如果参数axis = 1或axis =‘columns’,则返回每行的值。
nu_col = df.nunique()
print(nu_col)
print(type(nu_col))
# name 5
# age 4
# state 3
# point 4
# dtype: int64
# <class 'pandas.core.series.Series'>
print(df.nunique(dropna=False))
# name 6
# age 5
# state 4
# point 5
# dtype: int64
print(df.nunique(dropna=False, axis='columns'))
# 0 4
# 1 1
# 2 4
# 3 4
# 4 4
# 5 4
# dtype: int64
唯一元素的数量(不包括重复项的)
如上所述,pandas.Series.nunique()和pandas.DataFrame.nunique()可以计算唯一元素的数量(唯一元素的数量)。
print(df['state'].nunique())
# 3
print(df.nunique())
# name 5
# age 4
# state 3
# point 4
# dtype: int64
唯一元素值列表
使用unique(),您可以获取NumPy数组ndarray类型的唯一元素值的列表。如果要使用列表类型(Python内置类型),则可以使用tolist()方法将其转换。
print(df['state'].unique().tolist())
print(type(df['state'].unique().tolist()))
# ['NY', nan, 'CA', 'TX']
# <class 'list'>
可以将tolist()方法应用于通过value_counts()获得的pandas.Series的索引。也可以作为NumPy数组ndarray类型的值来获取。
print(df['state'].value_counts().index.tolist())
print(type(df['state'].value_counts().index.tolist()))
# ['NY', 'CA', 'TX']
# <class 'list'>
print(df['state'].value_counts(dropna=False).index.values)
print(type(df['state'].value_counts().index.values))
# ['NY' 'CA' 'TX' nan]
# <class 'numpy.ndarray'>
如上所述,在unique()的情况下,始终包含NaN,但是value_counts()可以指定参数dropna是否包含NaN。
唯一元素的频率(出现次数)
要获取每个唯一元素的频率(出现次数),请访问通过value_counts()获得的pandas.Series的值。
print(df['state'].value_counts()['NY'])
# 2
print(df['state'].value_counts().NY)
# 2
使用iteritems()方法检索for循环中的元素值和频率(出现次数)。
for index, value in df['state'].value_counts().iteritems():
print(index, ': ', value)
# NY : 2
# CA : 2
# TX : 1
独特元素及其出现的字典
也可以将to_dict()方法应用于value_counts()获得的pandas.Series使其成为字典。
d = df['state'].value_counts().to_dict()
print(d)
print(type(d))
# {'NY': 2, 'CA': 2, 'TX': 1}
# <class 'dict'>
print(d['NY'])
# 2
使用items()方法在for循环中检索元素值和频率(出现次数)。
for key, value in d.items():
print(key, ': ', value)
# NY : 2
# CA : 2
# TX : 1
模式及其频率
默认情况下,value_counts()返回pandas.Series,它以出现次数的降序排列,因此顶部是最频繁出现的值及其频率。
print(df['state'].value_counts())
# NY 2
# CA 2
# TX 1
# Name: state, dtype: int64
print(df['state'].value_counts().index[0])
# NY
print(df['state'].value_counts().iat[0])
# 2
原始pandas.Series的元素成为所得pandas.Series的索引。当数值为索引时,无法使用[Number]指定该值(这会导致错误),因此严格使用iat [Number]进行指定。 (由于示例是字符串,因此[Number]无关紧要)
使用apply()方法将其应用于pandas.DataFrame的每一列。
Pandas中map(),applymap(),apply()函数的使用方法
print(df.apply(lambda x: x.value_counts().index[0]))
# name Frank
# age 24
# state NY
# point 70
# dtype: object
print(df.apply(lambda x: x.value_counts().iat[0]))
# name 1
# age 2
# state 2
# point 2
# dtype: int64
如果存在多种模式,则上述方法只能获得一种模式。
mode()
pandas.Series的mode()方法将模式值返回为pandas.Series。如果使用tolist()列出此结果,则可以将模式值作为列表获取。请注意,即使只有一种模式,也将是一个列表。
print(df['state'].mode())
# 0 CA
# 1 NY
# dtype: object
print(df['state'].mode().tolist())
# ['CA', 'NY']
print(df['age'].mode().tolist())
# [24.0]
使用apply()方法将mode()应用于每列将产生具有列表类型元素的pandas.Series()。
s_mode = df.apply(lambda x: x.mode().tolist())
print(s_mode)
# name [Alice, Charlie, Dave, Ellen, Frank]
# age [24.0]
# state [CA, NY]
# point [70.0]
# dtype: object
print(type(s_mode))
# <class 'pandas.core.series.Series'>
print(s_mode['name'])
# ['Alice', 'Charlie', 'Dave', 'Ellen', 'Frank']
print(type(s_mode['name']))
# <class 'list'>
mode()也作为pandas.DataFrame的方法提供。返回pandas.DataFrame。由于各列的模式数不同,所以空缺部分成为缺失值NaN。
print(df.mode())
# name age state point
# 0 Alice 24.0 CA 70.0
# 1 Charlie NaN NY NaN
# 2 Dave NaN NaN NaN
# 3 Ellen NaN NaN NaN
# 4 Frank NaN NaN NaN
可以使用count()方法获得每列中的模式数,该方法对不缺少值NaN的元素数进行计数。
print(df.mode().count())
# name 5
# age 1
# state 2
# point 1
# dtype: int64
describe()
同样,正如我在开始时所写的那样,describe()方法可用于共同计算每一列的唯一元素的数量,模式值及其频率(出现的次数)。每个项目都可以使用loc []获得。
print(df.astype('str').describe())
# name age state point
# count 6 6 6 6
# unique 6 5 4 5
# top Frank 24.0 CA 70.0
# freq 1 2 2 2
print(df.astype('str').describe().loc['top'])
# name Frank
# age 24.0
# state CA
# point 70.0
# Name: top, dtype: object
在describe()中,由列类型dtype计算出的项是不同的,因此使用astype()进行类型转换(转换)。
归一化频率
如上所述,当将value_counts()的参数归一化设置为True时,将归一化以使总数变为1的值被返回。
请注意,如果包含缺失值NaN,则该值将根据参数dropna的设置而有所不同。
比较多个数据的频率分布时,很方便。
print(df['state'].value_counts(dropna=False, normalize=True))
# NY 0.333333
# CA 0.333333
# TX 0.166667
# NaN 0.166667
# Name: state, dtype: float64
来源:https://blog.csdn.net/qq_18351157/article/details/105993752


猜你喜欢
- #region 读写xml文件的2个小函数,2005 4 2 by hyc public void
- 问题一:在安装时候输入 net start mysql 时候报错为:net不是内部或外部命令也不是可运行。解决方法: 环境变量的问题:首先确
- 0. 前言本节中,我们使用策略梯度算法解决 CartPole 问题。虽然在这个简单问题中,使用随机搜索策略和爬山算法就足
- 本文实例讲述了Python实现测试磁盘性能的方法。分享给大家供大家参考。具体如下:该代码做了如下工作:create 300000 files
- 一、 使用Springboot+Jpa实现对mysql数据库的增删改查和分页功能JPA是Java Persistence API的简称,中文
- 按下"开始(win)"按钮和R键,输入cmd,打开命令行寻找点击需要的库:https://www.lfd.uci.edu
- 将字符串字段转为数字排序或比大小mysql里面有个坑就是,有时按照某个字段的大小排序(或是比大小)发现排序有点错乱。后来才发现,是我们想当然
- 关于IE9,微软逐渐提供越来越多的内容。很多人想知道IE9有多少模式和渲染引擎,今天IE项目主管Marc Silbey就此问题进行了解答。S
- 目录全局中间件应用中间件路由中间件控制器中间件中间件传参6.0中间件分为系统中间件和应用中间件,系统中间件为核心框架内置的中间件,应用中间件
- ALTER FUNCTION [dbo].[get_FullAge]( @birthday datetime, @current
- 本文实例实现的功能是监控一个文件或目录的变化,如果有变化,把文件上传备份至备份主机,并且要监控上传过程是否有问题等,具体内容如下#!/usr
- 问题简述在 Windows 系统上,我使用 Python 3.11 的 pip 工具安装 lxml 等库时会出现以下报错:error: Mi
- 首先说一下 我在form表单里面遇见的坑:1.例如我要给后台传的不是对象,而是一个数组,怎么写验证?2.比如我有四个弹出框,都要做验证,这个
- 出图是项目里常见的任务,有的项目甚至会要上百张图片,所以批量出土工具很有必要。arcpy.mapping就是ArcGIS里的出图模块,能快速
- 昨晚在往MySQL数据库中插入一组数据时,出错了!数据库无情了给我报了个错误:ERROR 1365(22012):Division by 0
- 对大家推荐很好使用的MySql节点系统,像让大家对MySql节点系统有所了解,然后对MySql节点系统全面讲解介绍,希望对大家有用在向大家详
- 准备工作:python:https://www.python.org/downloads/Dev-C++:https://sourcefor
- 前言CentOS 6.8 安装 Python 2.7.13,因为软件版本上的需求所以考虑将 Python 升级至 2.7.13,加上生产环境
- 1. 监测端口我们要引用的socket模块来校验端口是否被占用。1.1 socket是什么?简单一句话:网络上的两个程序通过一个双向的通信连
- Tornado是一种 Web 服务器软件的开源版本。Tornado 和主流Web 服务器框架(包括大多数 Python 的框架)有着明显的区