pandas中的数据去重处理的实现方法
作者:我是小蚂蚁 时间:2022-05-13 23:28:50
数据去重可以使用duplicated()和drop_duplicates()两个方法。
DataFrame.duplicated(subset = None,keep =‘first' )返回boolean Series表示重复行
参数:
subset:列标签或标签序列,可选
仅考虑用于标识重复项的某些列,默认情况下使用所有列
keep:{‘first',‘last',False},默认'first'
first:标记重复,True除了第一次出现。
last:标记重复,True除了最后一次出现。
错误:将所有重复项标记为True。
import numpy as np
import pandas as pd
from pandas import Series, DataFrame
df = pd.read_csv('./demo_duplicate.csv')
print(df)
print(df['Seqno'].unique()) # [0. 1.]
# 使用duplicated 查看 重复值
# 参数 keep 可以标记重复值 {'first','last',False}
print(df['Seqno'].duplicated())
'''
0 False
1 True
2 True
3 True
4 False
Name: Seqno, dtype: bool
'''
# 删除 series 重复数据
print(df['Seqno'].drop_duplicates())
'''
0 0.0
4 1.0
Name: Seqno, dtype: float64
'''
# 删除 dataframe 重复数据
print(df.drop_duplicates(['Seqno'])) # 按照 Seqno 来 去重
'''
Price Seqno Symbol time
0 1623.0 0.0 APPL 1473411962
4 1649.0 1.0 APPL 1473411963
'''
# drop_dujplicates() 第二个参数 keep 包含的值 有: first、last、False
print(df.drop_duplicates(['Seqno'], keep='last')) # 保存最后一个
'''
Price Seqno Symbol time
3 1623.0 0.0 APPL 1473411963
4 1649.0 1.0 APPL 1473411963
'''
pandas 去除重复行
DataFrame.drop_duplicates(subset = None,keep ='first',inplace = False )
subset : 指定列,默认情况下使用所有列
keep : {'first','last',False},默认'first'
first
:删除重复项保留第一次出现的。last
:删除重复项保留最后一次出现的。false:删除所有重复项。
inplace : 布尔值,默认为False 是否删除重复项或返回副本
栗子:
来源:https://blog.csdn.net/missyougoon/article/details/83926840
标签:Pandas,清除重复数据
![](/images/zang.png)
![](/images/jiucuo.png)
猜你喜欢
JavaScript定时器实现的原理分析
2023-08-23 10:24:16
![](https://img.aspxhome.com/file/2023/4/56094_0s.jpg)
Access数据库操作中出现的怪现象
2008-04-24 14:22:00
Django如何与Ajax交互
2023-05-09 12:53:11
Python Pygame实现俄罗斯方块
2023-03-17 07:18:03
![](https://img.aspxhome.com/file/2023/8/77898_0s.jpg)
python openssl模块安装及用法
2023-07-03 12:01:04
python OpenCV 实现高斯滤波详解
2022-11-22 16:40:34
![](https://img.aspxhome.com/file/2023/4/70084_0s.png)
Python的组合模式与责任链模式编程示例
2023-05-08 07:03:43
PHP实现异步定时多任务消息推送
2023-05-25 09:51:29
Python面试题之统计哈希列表中最多元素
2023-06-26 20:24:49
python自动化办公操作PPT的实现
2023-06-14 03:43:47
![](https://img.aspxhome.com/file/2023/5/59835_0s.png)
安装PHP可能遇到的问题“无法载入mysql扩展” 的解决方法
2023-09-09 04:37:39
游戏的用户体验营销小札
2009-08-30 15:13:00
解决IE下提示“无法打开Internet站点 已终止操作”的错误
2009-03-04 12:04:00
fso怎样判断一个盘上是否有文件
2007-09-26 12:35:00
Python中操作文件之write()方法的使用教程
2023-12-29 06:06:13
别人复制你网站的文章时自动加上注释
2009-02-09 13:20:00
彻底终结浏览器Cache页面的解决方案
2008-04-21 15:10:00
Python接口自动化判断元素原理解析
2022-09-04 18:33:58
Python中turtle库常用代码汇总
2021-02-24 06:50:38
![](https://img.aspxhome.com/file/2023/9/72859_0s.png)
Asp DatePart 函数的语法详解(用于计算日期并返回指定的时间间隔)
2012-12-04 20:04:29