Python Pandas对缺失值的处理方法
作者:乒乓球鸡蛋 时间:2021-03-18 19:38:55
Pandas使用这些函数处理缺失值:
isnull和notnull:检测是否是空值,可用于df和series
dropna:丢弃、删除缺失值
axis : 删除行还是列,{0 or ‘index', 1 or ‘columns'}, default 0
how : 如果等于any则任何值为空都删除,如果等于all则所有值都为空才删除
inplace : 如果为True则修改当前df,否则返回新的df
fillna:填充空值
value:用于填充的值,可以是单个值,或者字典(key是列名,value是值)
method : 等于ffill使用前一个不为空的值填充forword fill;等于bfill使用后一个不为空的值填充backword fill
axis : 按行还是列填充,{0 or ‘index', 1 or ‘columns'}
inplace : 如果为True则修改当前df,否则返回新的df
import pandas as pd
实例:特殊Excel的读取、清洗、处理
步骤1:读取excel的时候,忽略前几个空行
studf = pd.read_excel("./datas/student_excel/student_excel.xlsx", skiprows=2)
studf
Unnamed: 0 | 姓名 | 科目 | 分数 | |
---|---|---|---|---|
0 | NaN | 小明 | 语文 | 85.0 |
1 | NaN | NaN | 数学 | 80.0 |
2 | NaN | NaN | 英语 | 90.0 |
3 | NaN | NaN | NaN | NaN |
4 | NaN | 小王 | 语文 | 85.0 |
5 | NaN | NaN | 数学 | NaN |
6 | NaN | NaN | 英语 | 90.0 |
7 | NaN | NaN | NaN | NaN |
8 | NaN | 小刚 | 语文 | 85.0 |
9 | NaN | NaN | 数学 | 80.0 |
10 | NaN | NaN | 英语 | 90.0 |
步骤2:检测空值
studf.isnull()
Unnamed: 0 | 姓名 | 科目 | 分数 | |
---|---|---|---|---|
0 | True | False | False | False |
1 | True | True | False | False |
2 | True | True | False | False |
3 | True | True | True | True |
4 | True | False | False | False |
5 | True | True | False | True |
6 | True | True | False | False |
7 | True | True | True | True |
8 | True | False | False | False |
9 | True | True | False | False |
10 | True | True | False | False |
studf["分数"].isnull()
0 False
1 False
2 False
3 True
4 False
5 True
6 False
7 True
8 False
9 False
10 False
Name: 分数, dtype: bool
studf["分数"].notnull()
0 True
1 True
2 True
3 False
4 True
5 False
6 True
7 False
8 True
9 True
10 True
Name: 分数, dtype: bool
# 筛选没有空分数的所有行
studf.loc[studf["分数"].notnull(), :]
Unnamed: 0 | 姓名 | 科目 | 分数 | |
---|---|---|---|---|
0 | NaN | 小明 | 语文 | 85.0 |
1 | NaN | NaN | 数学 | 80.0 |
2 | NaN | NaN | 英语 | 90.0 |
4 | NaN | 小王 | 语文 | 85.0 |
6 | NaN | NaN | 英语 | 90.0 |
8 | NaN | 小刚 | 语文 | 85.0 |
9 | NaN | NaN | 数学 | 80.0 |
10 | NaN | NaN | 英语 | 90.0 |
步骤3:删除掉全是空值的列
studf.dropna(axis="columns", how='all', inplace=True)
studf
姓名 | 科目 | 分数 | |
---|---|---|---|
0 | 小明 | 语文 | 85.0 |
1 | NaN | 数学 | 80.0 |
2 | NaN | 英语 | 90.0 |
3 | NaN | NaN | NaN |
4 | 小王 | 语文 | 85.0 |
5 | NaN | 数学 | NaN |
6 | NaN | 英语 | 90.0 |
7 | NaN | NaN | NaN |
8 | 小刚 | 语文 | 85.0 |
9 | NaN | 数学 | 80.0 |
10 | NaN | 英语 | 90.0 |
步骤4:删除掉全是空值的行
studf.dropna(axis="index", how='all', inplace=True)
studf
姓名 | 科目 | 分数 | |
---|---|---|---|
0 | 小明 | 语文 | 85.0 |
1 | NaN | 数学 | 80.0 |
2 | NaN | 英语 | 90.0 |
4 | 小王 | 语文 | 85.0 |
5 | NaN | 数学 | NaN |
6 | NaN | 英语 | 90.0 |
8 | 小刚 | 语文 | 85.0 |
9 | NaN | 数学 | 80.0 |
10 | NaN | 英语 | 90.0 |
步骤5:将分数列为空的填充为0分
studf.fillna({"分数":0})
姓名 | 科目 | 分数 | |
---|---|---|---|
0 | 小明 | 语文 | 85.0 |
1 | NaN | 数学 | 80.0 |
2 | NaN | 英语 | 90.0 |
4 | 小王 | 语文 | 85.0 |
5 | NaN | 数学 | 0.0 |
6 | NaN | 英语 | 90.0 |
8 | 小刚 | 语文 | 85.0 |
9 | NaN | 数学 | 80.0 |
10 | NaN | 英语 | 90.0 |
# 等同于
studf.loc[:, '分数'] = studf['分数'].fillna(0)
studf
姓名 | 科目 | 分数 | |
---|---|---|---|
0 | 小明 | 语文 | 85.0 |
1 | NaN | 数学 | 80.0 |
2 | NaN | 英语 | 90.0 |
4 | 小王 | 语文 | 85.0 |
5 | NaN | 数学 | 0.0 |
6 | NaN | 英语 | 90.0 |
8 | 小刚 | 语文 | 85.0 |
9 | NaN | 数学 | 80.0 |
10 | NaN | 英语 | 90.0 |
步骤6:将姓名的缺失值填充
使用前面的有效值填充,用ffill:forward fill
studf.loc[:, '姓名'] = studf['姓名'].fillna(method="ffill")
studf
姓名 | 科目 | 分数 | |
---|---|---|---|
0 | 小明 | 语文 | 85.0 |
1 | 小明 | 数学 | 80.0 |
2 | 小明 | 英语 | 90.0 |
4 | 小王 | 语文 | 85.0 |
5 | 小王 | 数学 | 0.0 |
6 | 小王 | 英语 | 90.0 |
8 | 小刚 | 语文 | 85.0 |
9 | 小刚 | 数学 | 80.0 |
10 | 小刚 | 英语 | 90.0 |
步骤7:将清洗好的excel保存
studf.to_excel("./datas/student_excel/student_excel_clean.xlsx", index=False)
总结
来源:https://www.cnblogs.com/crazyant/p/11595566.html
标签:pandas,缺失值
![](/images/zang.png)
![](/images/jiucuo.png)
猜你喜欢
asp如何创建一个PDF文件?
2009-11-14 20:53:00
快速掌握ASP连接11种数据库的常用语法
2008-11-28 15:32:00
教程:MySQL中多表操作和批处理方法
2009-07-30 08:20:00
js 玩转正则表达式之语法高亮
2023-06-24 05:35:42
go语言题解LeetCode1275找出井字棋的获胜者示例
2023-07-22 12:30:41
解析Anaconda创建python虚拟环境的问题
2023-08-01 03:58:13
![](https://img.aspxhome.com/file/2023/6/61196_0s.png)
python 实现的发送邮件模板【普通邮件、带附件、带图片邮件】
2023-10-07 00:52:22
用ASP实现域名绑定子目录
2009-03-11 13:28:00
960px下的黄金分割
2009-07-31 14:33:00
![](https://img.aspxhome.com/file/UploadPic/20097/31/498022_1248973274hhmt-19s.jpg)
Dreamweaver使用疑难解答
2009-09-13 18:41:00
![](https://img.aspxhome.com/file/UploadPic/20072/200723113116214s.jpg)
php中ob_flush函数和flush函数用法分析
2023-11-15 06:12:59
某大型网络公司应聘时的笔试题目附答案
2023-11-15 02:01:21
Python中bisect的使用方法
2021-12-03 05:56:12
msxml3.dll 错误解决办法
2009-05-25 18:02:00
解决Windows10不能安装Oracle 11g的问题(附详细安装教程)
2023-07-23 08:22:08
![](https://img.aspxhome.com/file/2023/3/63723_0s.jpg)
mysql 错误:ERROR 1045 (28000): Access deni
2010-09-30 14:48:00
asp如何获知Connection对象更多的信息?
2009-11-23 20:53:00
科讯CMS编辑器会自动更改代码
2008-12-12 13:00:00
![](https://img.aspxhome.com/file/UploadPic/200812/12/kesion-editer-90s.jpg)
发一个自己用的JS框架(试用版^_^)
2011-09-11 18:53:24
go语言实现markdown解析库的方法示例
2023-06-20 07:37:32