pandas如何处理缺失值

作者:修炼之路 时间:2021-04-10 12:42:35 

在实际应用中对于数据进行分析的时候,经常能看见缺失值,下面来介绍一下如何利用pandas来处理缺失值。常见的缺失值处理方式有,过滤、填充。

一、缺失值的判断

pandas使用浮点值NaN(Not a Number)表示浮点数和非浮点数组中的缺失值,同时python内置None值也会被当作是缺失值。

a、Series的缺失值判断


 s = Series(["a","b",np.nan,"c",None])
 print(s)
 '''
 0    a
 1    b
 2   NaN
 3    c
 4  None
 '''
 #判断缺失值,如果是则返回True,否则返回False
 print(s.isnull())
 '''
 0  False
 1  False
 2   True
 3  False
 4   True
 '''
 #输出缺失值的索引和值
 print(s[s.isnull()])
 '''
 2   NaN
 4  None
 '''

b、DataFrame的缺失值判断


 a = [[1,np.nan,2],[3,4,None]]
 data = DataFrame(a)
 #DataFrame的None值变成了NaN
 print(data)
 '''
   0  1  2
 0 1 NaN 2.0
 1 3 4.0 NaN
 '''
 print(data.isnull())
 '''
     0   1   2
 0 False  True False
 1 False False  True
 '''
 print(data[data.isnull()])
 '''
   0  1  2
 0 NaN NaN NaN
 1 NaN NaN NaN
 '''

注意:在使用Series和DataFrame的时候,如果其中有值为None,Series会输出None,而DataFrame会输出NaN,但是对空值判断没有影响。DataFrame使用isnull方法在输出空值的时候全为NaN,因为DataFrame对于False对应的位置,输出值会使用NaN代替,而Series对于Fasel对应的位置是没有输出值的。

二、过滤缺失数据

a、Series的缺失值过滤


 s = Series(["a","b",np.nan,"c",None])
 #通过使用notnull方法来获取非缺失数据
 print(s[s.notnull()])
 '''
 0  a
 1  b
 3  c
 '''
 #使用dropna方法删除缺失数据,返回一个删除后的Series
 print(s.dropna())
 '''
 0  a
 1  b
 3  c
 '''
 #并没有在原来的Series上进行直接删除
 print(s)
 '''
 0    a
 1    b
 2   NaN
 3    c
 4  None
 '''
 #通过设置inplace参数为True,在原Series上进行删除,不会返回Series
 print(s.dropna(inplace=True))
 #None
 print(s)
 '''
 0  a
 1  b
 3  c
 '''

b、DataFrame的缺失值过滤

DataFrame删除缺失值相对于Series而言就要复杂一些,也许有的时候你是想删除含有缺失值的行或列,也许有时候你需要删除的是,当整行或整列全为缺失值的时候才删除,好在pandas对于这两种情况都有相对应的处理方法。

1、删除含有缺失值的行和列


 a = [[1, np.nan, 2],[9,None,np.nan],[3, 4, None],[5,6,7]]
 data = DataFrame(a)
 print(data)
 '''
   0  1  2
 0 1 NaN 2.0
 1 9 NaN NaN
 2 3 4.0 NaN
 3 5 6.0 7.0
 '''
 #使用dropna方法删除含有缺失值的行,默认是行
 print(data.dropna())
 '''
   0  1  2
 3 5 6.0 7.0
 '''
 #删除含有缺失值的列
 print(data.dropna(axis=1))
 '''
   0
 0 1
 1 9
 2 3
 3 5
 '''

2、删除全为NaN的行和列


  a = [[1, np.nan, 2],[np.nan,None,np.nan],[3, None, None],[5,None,7]]
 data = DataFrame(a)
 print(data)
 '''
    0  1  2
 0 1.0 NaN 2.0
 1 NaN NaN NaN
 2 3.0 NaN NaN
 3 5.0 NaN 7.0
 '''
 #当行全为NaN的时候,才删除,参数how默认是any,含有缺失值就删除
 print(data.dropna(how="all"))
 '''
    0  1  2
 0 1.0 NaN 2.0
 2 3.0 NaN NaN
 3 5.0 NaN 7.0
 '''
 #当列全为NaN的时候,才删除
 print(data.dropna(how="all",axis=1))
 '''
    0  2
 0 1.0 2.0
 1 NaN NaN
 2 3.0 NaN
 3 5.0 7.0
 '''

dropna方法的inplace的设置与Series一样。

3、指定删除数据后显示部分数据观察


 a = [[1, np.nan, 2],[np.nan,None,np.nan],[3, None, None],[5,None,7]]
 data = DataFrame(a)
 print(data)
 '''
    0  1  2
 0 1.0 NaN 2.0
 1 NaN NaN NaN
 2 3.0 NaN NaN
 3 5.0 NaN 7.0
 '''
 #当行全为NaN的时候,才删除,参数how默认是any,含有缺失值就删除
 print(data.dropna(how="all"))
 '''
    0  1  2
 0 1.0 NaN 2.0
 2 3.0 NaN NaN
 3 5.0 NaN 7.0
 '''
 #通过thresh参数来控制显示删除数据的条数,删除列的时候thresh参数无效
 print(data.dropna(how="all",thresh=2))
 '''
    0  1  2
 0 1.0 NaN 2.0
 3 5.0 NaN 7.0
 '''

三、填充缺失值

数据都是宝贵的,也许有时候你的数据不够多,因为数据越多对于模型的训练,数据分析都是有好处的,所以很多的时候我们都不想删除数据。通常情况下,也许你会选择用一些特殊值来填充缺失值。下面介绍使用pandas的fillna方法来填充缺失数据。

1、指定特殊值填充缺失值


 a = [[1, 2, 2],[3,None,6],[3, 7, None],[5,None,7]]
 data = DataFrame(a)
 print(data)
 '''
   0  1  2
 0 1 2.0 2.0
 1 3 NaN 6.0
 2 3 7.0 NaN
 3 5 NaN 7.0
 '''
 #用0填充所有的缺失数据
 print(data.fillna(0))
 '''
   0  1  2
 0 1 2.0 2.0
 1 3 0.0 6.0
 2 3 7.0 0.0
 3 5 0.0 7.0
 '''

2、不同列使用不同的填充值


 a = [[1, 2, 2],[3,None,6],[3, 7, None],[5,None,7]]
 data = DataFrame(a)
 print(data)
 '''
   0  1  2
 0 1 2.0 2.0
 1 3 NaN 6.0
 2 3 7.0 NaN
 3 5 NaN 7.0
 '''
 print(data.fillna({1:1,2:2}))
 '''
   0  1  2
 0 1 2.0 2.0
 1 3 1.0 6.0
 2 3 7.0 2.0
 3 5 1.0 7.0
 '''

3、前向填充和后向填充


 a = [[1, 2, 2],[3,None,6],[3, 7, None],[5,None,7]]
 data = DataFrame(a)
 print(data)
 '''
   0  1  2
 0 1 2.0 2.0
 1 3 NaN 6.0
 2 3 7.0 NaN
 3 5 NaN 7.0
 '''
 #前向填充,使用默认是上一行的值,设置axis=1可以使用列进行填充
 print(data.fillna(method="ffill"))
 '''
   0  1  2
 0 1 2.0 2.0
 1 3 2.0 6.0
 2 3 7.0 6.0
 3 5 7.0 7.0
 '''
 #后向填充,使用下一行的值,不存在的时候就不填充
 print(data.fillna(method="bfill"))
 '''
   0  1  2
 0 1 2.0 2.0
 1 3 7.0 6.0
 2 3 7.0 7.0
 3 5 NaN 7.0
 '''

4、使用列的平均值进行填充


 a = [[1, 2, 2],[3,None,6],[3, 7, None],[5,None,7]]
 data = DataFrame(a)
 print(data)
 '''
   0  1  2
 0 1 2.0 2.0
 1 3 NaN 6.0
 2 3 7.0 NaN
 3 5 NaN 7.0
 '''
 print(data.fillna(data.mean()))
 '''
   0  1  2
 0 1 2.0 2.0
 1 3 4.5 6.0
 2 3 7.0 5.0
 3 5 4.5 7.0
 '''

来源:https://blog.csdn.net/sinat_29957455/article/details/79017363

标签:pandas,缺失值
0
投稿

猜你喜欢

  • python检测远程服务器tcp端口的方法

    2021-02-18 22:49:44
  • 解决Python 爬虫URL中存在中文或特殊符号无法请求的问题

    2022-04-17 13:47:18
  • vue中的数据绑定原理的实现

    2024-05-05 09:09:34
  • jfinal与bootstrap的登录跳转实战演习

    2023-07-02 05:20:01
  • hive中将string数据转为bigint的操作

    2024-01-20 15:37:18
  • django自带的server 让外网主机访问方法

    2023-06-03 22:59:50
  • mysql远程跨库联合查询的示例

    2024-01-13 23:09:10
  • JavaScript选取(picking)和反选(rejecting)对象的属性方法

    2023-08-24 22:28:47
  • Python利用Gradio与EasyOCR构建在线识别文本的Web应用

    2023-05-31 09:35:57
  • 剖析SQL Server 事务日志的收缩和截断

    2009-01-15 13:04:00
  • sklearn+python:线性回归案例

    2023-10-19 20:07:01
  • Python利用format函数实现对齐打印(左对齐、右对齐与居中对齐)

    2021-07-30 05:16:16
  • python 正则表达式参数替换实例详解

    2022-08-11 18:21:44
  • 啥是佩奇?使用Python自动绘画小猪佩奇的代码实例

    2022-02-13 19:46:53
  • python学习之panda数据分析核心支持库

    2023-11-04 17:39:29
  • Python 列表和字典常踩坑即解决方案

    2021-05-01 17:45:25
  • Python简单爬虫导出CSV文件的实例讲解

    2022-10-11 03:39:19
  • 为SWFUpload增加ASP版本的上传处理程序

    2011-04-28 08:01:00
  • Mysql 如何查询时间段交集

    2024-01-22 09:27:32
  • Python爬取微信小程序通用方法代码实例详解

    2021-04-08 15:30:09
  • asp之家 网络编程 m.aspxhome.com