python重复值处理得方法
作者:??FizzH???? 时间:2023-07-03 20:57:43
前言:
如果大家接触过数据分析,那么大家可能都知道,最让人头疼的就是在数据录入的过程中,不可避免的会产生重复值,缺失值和异常值了,python也提供了一些方法让我们处理这些值。下面让我们一块来学习一下吧~
今天,先处理重复值,首先创建一个包含重复值的DataFrame,如下:
import pandas as pd
data = pd.DataFrame([[1,2],[1,2],[3,4]],columns = ['a','b'])
print(data)
我们将其打印出来,结果如下:
可以看出来第一第二行是重复的,这里的数据量比较少,可以直接肉眼观察,但如果数据量多的时候,我们就需要用到diplicated()函数来查询了,我们用它来查查上面data的重复值。
data[data.duplicated()]
我们可以看出,它把索引为1的行打印了出来,如果有3行一样的呢?我们下面来试试!
import pandas as pd
data = pd.DataFrame([[1,2],[1,2],[1,2],[3,4]],columns = ['a','b'])
data[data.duplicated()]
其结果如下:
可以看出,重复项出了第一个出现的数据外,都会显示出来。
如果想统计出一共有多少行重复了,我们就可以用到sum()函数,代码如下:
data.duplicated().sum()
很多情况下,我们都需要删除掉重复的数据,这时候我们就可以用到drop_duplicated()函数,我们将data的重复行删除掉试试!
data.drop_duplicated()
刚执行代码时发生了错误,原来是duplicates而不是duplicated!
但是要注意,用drop_duplicates()删除重复项并不会影响data的结构,如果你要把data结构改掉就要重新赋值。如果要用来删除某列的重复值的话,直接在括号内加上列名即可。
如下:
来源:https://juejin.cn/post/7064768893092380702
标签:python,重复值,处理
![](/images/zang.png)
![](/images/jiucuo.png)
猜你喜欢
详解Vue调用手机相机和相册以及上传
2024-04-27 16:13:47
asp HTTP 500错误 常见问题分析
2011-04-07 10:33:00
Javascript中数组方法汇总(推荐)
2023-07-16 08:33:02
Python实现的插入排序,冒泡排序,快速排序,选择排序算法示例
2023-06-09 02:51:16
Python通过TensorFLow进行线性模型训练原理与实现方法详解
2022-11-10 16:17:27
![](https://img.aspxhome.com/file/2023/5/87465_0s.png)
MySQL 定时器EVENT学习
2010-10-14 13:55:00
python图片灰度化处理的几种方法
2023-03-05 01:14:57
![](https://img.aspxhome.com/file/2023/9/112979_0s.jpg)
python爬虫字体加密的解决
2021-02-22 12:25:57
![](https://img.aspxhome.com/file/2023/3/105643_0s.png)
python 中使用yagmail 发送邮件功能
2022-10-27 11:48:36
![](https://img.aspxhome.com/file/2023/4/121774_0s.png)
Springboot集成Camunda使用Mysql介绍
2024-01-22 12:41:36
![](https://img.aspxhome.com/file/2023/7/79897_0s.png)
python如何寻找主串中所有指定子串下标
2023-11-27 08:38:41
![](https://img.aspxhome.com/file/2023/3/125043_0s.png)
《写给大家看的设计书》阅读笔记之重复原则
2009-07-12 15:36:00
![](/images/sg_trans.gif)
详解Python中的format格式化函数的使用方法
2023-04-12 22:47:05
![](https://img.aspxhome.com/file/2023/2/77612_0s.png)
jquery判断元素是否隐藏的多种方法
2024-04-19 10:23:51
Javascript自定义排序 node运行 实例
2023-07-02 05:18:40
在Django中URL正则表达式匹配的方法
2021-06-09 22:38:57
![](https://img.aspxhome.com/file/2023/2/94012_0s.jpg)
Mysql彻底解决中文乱码问题的方案(Illegal mix of collations for operation)
2024-01-26 16:33:51
![](https://img.aspxhome.com/file/2023/5/102365_0s.jpg)
oracle 优化的一点体会
2009-10-02 17:59:00
Python使用matplotlib填充图形指定区域代码示例
2022-10-16 10:30:12
![](https://img.aspxhome.com/file/2023/0/131600_0s.png)
Go语言interface详解
2023-07-05 16:55:33