pandas || df.dropna() 缺失值删除操作
作者:一个还在挣扎的码农 时间:2023-07-10 06:51:06
df.dropna()函数用于删除dataframe数据中的缺失数据,即 删除NaN数据.
官方函数说明:
DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
Remove missing values.
See the User Guide for more on which values are considered missing,
and how to work with missing data.
Returns
DataFrame
DataFrame with NA entries dropped from it.
参数说明:
Parameters | 说明 |
---|---|
axis | 0为行 1为列,default 0,数据删除维度 |
how | {‘any', ‘all'}, default ‘any',any:删除带有nan的行;all:删除全为nan的行 |
thresh | int,保留至少 int 个非nan行 |
subset | list,在特定列缺失值处理 |
inplace | bool,是否修改源文件 |
测试:
>>>df = pd.DataFrame({"name": ['Alfred', 'Batman', 'Catwoman'],
"toy": [np.nan, 'Batmobile', 'Bullwhip'],
"born": [pd.NaT, pd.Timestamp("1940-04-25"),
pd.NaT]})
>>>df
name toy born
0 Alfred NaN NaT
1 Batman Batmobile 1940-04-25
2 Catwoman Bullwhip NaT
删除至少缺少一个元素的行:
>>>df.dropna()
name toy born
1 Batman Batmobile 1940-04-25
删除至少缺少一个元素的列:
>>>df.dropna(axis=1)
name
0 Alfred
1 Batman
2 Catwoman
删除所有元素丢失的行:
>>>df.dropna(how='all')
name toy born
0 Alfred NaN NaT
1 Batman Batmobile 1940-04-25
2 Catwoman Bullwhip NaT
只保留至少2个非NA值的行:
>>>df.dropna(thresh=2)
name toy born
1 Batman Batmobile 1940-04-25
2 Catwoman Bullwhip NaT
从特定列中查找缺少的值:
>>>df.dropna(subset=['name', 'born'])
name toy born
1 Batman Batmobile 1940-04-25
修改原数据:
>>>df.dropna(inplace=True)
>>>df
name toy born
1 Batman Batmobile 1940-04-25
以上。
补充:Pandas 之Dropna滤除缺失数据
约定:
import pandas as pd
import numpy as np
from numpy import nan as NaN
滤除缺失数据
pandas的设计目标之一就是使得处理缺失数据的任务更加轻松些。pandas使用NaN作为缺失数据的标记。
使用dropna使得滤除缺失数据更加得心应手。
一、处理Series对象
通过**dropna()**滤除缺失数据:
se1=pd.Series([4,NaN,8,NaN,5])
print(se1)
se1.dropna()
代码结果:
0 4.0
1 NaN
2 8.0
3 NaN
4 5.0
dtype: float64
0 4.0
2 8.0
4 5.0
dtype: float64
通过布尔序列也能滤除:
se1[se1.notnull()]
代码结果:
0 4.0
2 8.0
4 5.0
dtype: float64
二、处理DataFrame对象
处理DataFrame对象比较复杂,因为你可能需要丢弃所有的NaN或部分NaN。
df1=pd.DataFrame([[1,2,3],[NaN,NaN,2],[NaN,NaN,NaN],[8,8,NaN]])
df1
代码结果:
0 | 1 | 2 | |
---|---|---|---|
0 | 1.0 | 2.0 | 3.0 |
1 | NaN | NaN | 2.0 |
2 | NaN | NaN | NaN |
3 | 8.0 | 8.0 | NaN |
默认滤除所有包含NaN:
df1.dropna()
代码结果:
0 | 1 | 2 | |
---|---|---|---|
0 | 1.0 | 2.0 | 3.0 |
传入**how=‘all'**滤除全为NaN的行:
df1.dropna(how='all')
代码结果:
0 | 1 | 2 | |
---|---|---|---|
0 | 1.0 | 2.0 | 3.0 |
1 | NaN | NaN | 2.0 |
3 | 8.0 | 8.0 | NaN |
传入axis=1滤除列:
df1[3]=NaN
df1
代码结果:
0 | 1 | 2 | 3 | |
---|---|---|---|---|
0 | 1.0 | 2.0 | 3.0 | NaN |
1 | NaN | NaN | 2.0 | NaN |
2 | NaN | NaN | NaN | NaN |
3 | 8.0 | 8.0 | NaN | NaN |
df1.dropna(axis=1,how="all")
代码结果:
0 | 1 | 2 | |
---|---|---|---|
0 | 1.0 | 2.0 | 3.0 |
1 | NaN | NaN | 2.0 |
2 | NaN | NaN | NaN |
3 | 8.0 | 8.0 | NaN |
传入thresh=n保留至少有n个非NaN数据的行:
df1.dropna(thresh=1)
代码结果:
0 | 1 | 2 | 3 | |
---|---|---|---|---|
0 | 1.0 | 2.0 | 3.0 | NaN |
1 | NaN | NaN | 2.0 | NaN |
3 | 8.0 | 8.0 | NaN | NaN |
df1.dropna(thresh=3)
代码结果:
0 | 1 | 2 | 3 | |
---|---|---|---|---|
0 | 1.0 | 2.0 | 3.0 | NaN |
以上为个人经验,希望能给大家一个参考,也希望大家多多支持asp之家。
来源:https://blog.csdn.net/qq_43188358/article/details/108335776
标签:pandas,df.dropna,缺失值
0
投稿
猜你喜欢
Access与Flash的结合应用
2008-11-20 16:44:00
检测tensorflow是否使用gpu进行计算的方式
2021-11-19 11:24:33
在Python的web框架中配置app的教程
2023-03-28 12:12:17
python3中利用filter函数输出小于某个数的所有回文数实例
2022-05-01 13:08:07
JavaScript实现开关等效果
2024-04-25 13:13:55
Python3中函数参数传递方式实例详解
2022-05-22 23:32:20
Python中层次聚类的详细讲解
2022-07-02 06:07:13
如何防止页面中的敏感信息被提取
2008-05-04 11:59:00
python中利用xml.dom模块解析xml的方法教程
2022-08-17 01:44:47
pycharm打开命令行或Terminal的方法
2022-12-11 07:07:08
golang的协程上下文的具体使用
2024-02-01 00:41:02
Python if语句知识点用法总结
2022-01-03 06:43:14
从数据表中取出第n条到第m条的记录的方法
2009-02-19 13:40:00
MySQL 如何查询当前最新事务ID
2024-01-28 17:23:42
python初学定义函数
2021-07-02 03:37:07
15条JavaScript最佳实践小结
2024-04-29 13:37:25
asp.net 多数据库支持的思考
2024-01-16 04:50:45
显示你个性的鼠标指针
2011-06-14 09:41:41
ASP编程菜鸟易犯的一个错误
2008-10-29 13:27:00
JS实现动态移动层及拖动浮层关闭的方法
2024-06-17 02:34:00