Python数据分析之缺失值检测与处理详解

作者:Dream丶Killer 时间:2021-10-04 01:09:08 

检测缺失值

我们先创建一个带有缺失值的数据框(DataFrame)。


import pandas as pd

df = pd.DataFrame(
   {'A': [None, 2, None, 4],
    'B': [10, None, None, 40],
    'C': [100, 200, None, 400],
    'D': [None, 2000, 3000, None]})
df

Python数据分析之缺失值检测与处理详解

数值类缺失值在 Pandas 中被显示为 NaN (Not A Number)。下面看看如何判断哪些列或者哪些行有缺失值。

1.info()

Python数据分析之缺失值检测与处理详解

info() 返回的结果中,我们只需要观察每一列对应的 Non-Null Count 的数量是否等于 RangeIndex(索引范围) 即可。

2.isnull()

isnull() 返回一个与原 DataFrame 大小(列数,行数)相同的数据框,行列对应的数据代表着该位置是否为缺失值。


df.isnull()

Python数据分析之缺失值检测与处理详解

使用 sum() 来检测每列中的缺失值的数量。


df.isnull().sum()

Python数据分析之缺失值检测与处理详解

通过 .T 将 DataFrame 转置,获取检测每行中缺失值的数量。


df.isnull().T.sum()

Python数据分析之缺失值检测与处理详解

缺失值处理

删除缺失值

如果出现缺失值的行/列重要性不大的话,可以直接使用 dropna() 删除带有缺失值的行/列。


df.dropna(axis=0,
         how='any',
         thresh=None,
         subset=None,
         inplace=False)

参数含义

  • axis:控制行列的参数,0 行,1 列。

  • how:any,如果有 NaN,删除该行或列;all,如果所有值都是 NaN,删除该行或列。

  • thresh:指定 NaN 的数量,当 NaN 数量达到才删除。

  • subset:要考虑的数据范围,如:删除缺失行,就用subset指定参考的列,默认是所有列。

  • inplace:是否修改原数据,True直接修改原数据,返回 None,False则返回处理后的数据框。

指定 axis = 1,如果列中有缺失值,则删除该列。


df.dropna(axis=1, how='any')

Python数据分析之缺失值检测与处理详解

由于每列都有缺失值,所以只剩索引。

指定 axis = 0(默认),如果行中有缺失值,则删除该行。


df.dropna(axis=0, how='any')

Python数据分析之缺失值检测与处理详解

以 ABC 列为参照,删除这三列都是缺失值的行。


df.dropna(axis=0, subset=['A', 'B', 'C'], how='all')

Python数据分析之缺失值检测与处理详解

保留至少有3个非NaN值的行。


df.dropna(axis=0, thresh=3)

Python数据分析之缺失值检测与处理详解

填补缺失值

另一种常见的缺失值处理方式就是使用 fillna() 填补缺失值。


df.fillna(value=None,
         method=None,
         axis=0,
         inplace=False,
         limit=None)

1. 直接指定填充值


df.fillna(666)

Python数据分析之缺失值检测与处理详解

2.用缺失值前/后的值填充

按前一个值填充

当method 值为 ffill 或 pad时,按前一个值进行填充。

当 axis = 0,用缺失值同一列的上一个值填充,如果缺失值在第一行则不填充。

当 axis = 1,用缺失值同一行的上一个值填充,如果缺失值在第一列则不填充。


df.fillna(axis=0, method='pad')

Python数据分析之缺失值检测与处理详解

按后一个值填充

当method 值为 backfill 或 bfill时,按后一个值进行填充。

当 axis = 0,用缺失值同一列的下一个值填充,如果缺失值在最后一行则不填充。

当 axis = 1,用缺失值同一行的下一个值填充,如果缺失值在最后一列则不填充。


df.fillna(axis=0, method='bfill')

Python数据分析之缺失值检测与处理详解

指定相应的方法来填充


df.fillna(df.mean())

Python数据分析之缺失值检测与处理详解

limit限制填充次数

在ABCD列上,每列只填充第一个空值。


df.fillna(value=666, axis=1, limit=1)

Python数据分析之缺失值检测与处理详解

来源:https://blog.csdn.net/qq_43965708/article/details/121297449

标签:Python,数据分析,缺失值
0
投稿

猜你喜欢

  • PHP实现的线索二叉树及二叉树遍历方法详解

    2023-11-13 11:28:06
  • Javascript正则表达式基础

    2009-02-01 18:13:00
  • Hibernate Oracle sequence的使用技巧

    2023-07-06 05:18:42
  • 有用的:nth-child秘方

    2011-07-01 12:56:11
  • SQL Server数据库超级管理员账号防护

    2008-12-22 16:30:00
  • 404错误伪静态类封装class RewriteBase

    2009-06-29 16:19:00
  • ASP生成XML文件

    2009-06-29 16:28:00
  • pytorch实现focal loss的两种方式小结

    2023-07-02 14:43:22
  • 多按钮共存——don’t make me think

    2010-01-11 20:20:00
  • 在php7中MongoDB实现模糊查询的方法详解

    2023-09-04 12:30:00
  • 页面中图像格式的选用之我见

    2007-10-31 18:11:00
  • Python中单线程、多线程和多进程的效率对比实验实例

    2022-12-01 09:25:55
  • 在ASP中按指定参数格式化显示时间的函数。

    2010-05-27 12:29:00
  • Oracle误添加数据文件删除方法

    2009-07-02 12:21:00
  • SQL Server中通过扩展存储过程实现数据库的远程备份与恢复

    2012-05-22 18:48:56
  • pytorch神经网络之卷积层与全连接层参数的设置方法

    2023-07-11 14:21:27
  • 30步检查SQL Server安全列表

    2008-12-18 14:28:00
  • SQL Server中实现二进制与字符类型之间的数据转换

    2023-07-17 21:34:47
  • PL/SQL 日期时间类型函数及运算

    2009-02-26 10:45:00
  • [js效果] 图片加载进度实时显示

    2007-09-12 19:27:00
  • asp之家 网络编程 m.aspxhome.com