pandas中的数据去重处理的实现方法

作者:我是小蚂蚁 时间:2022-05-13 23:28:50 

数据去重可以使用duplicated()和drop_duplicates()两个方法。

DataFrame.duplicated(subset = None,keep =‘first' )返回boolean Series表示重复行

参数: 
subset:列标签或标签序列,可选
仅考虑用于标识重复项的某些列,默认情况下使用所有列
keep:{‘first',‘last',False},默认'first'

  • first:标记重复,True除了第一次出现。

  • last:标记重复,True除了最后一次出现。

  • 错误:将所有重复项标记为True。


import numpy as np
import pandas as pd
from pandas import Series, DataFrame

df = pd.read_csv('./demo_duplicate.csv')
print(df)
print(df['Seqno'].unique()) # [0. 1.]

# 使用duplicated 查看 重复值
# 参数 keep 可以标记重复值 {'first','last',False}
print(df['Seqno'].duplicated())
'''
0  False
1   True
2   True
3   True
4  False
Name: Seqno, dtype: bool
'''

# 删除 series 重复数据
print(df['Seqno'].drop_duplicates())
'''
0  0.0
4  1.0
Name: Seqno, dtype: float64
'''

# 删除 dataframe 重复数据
print(df.drop_duplicates(['Seqno'])) # 按照 Seqno 来 去重
'''
 Price Seqno Symbol    time
0 1623.0  0.0  APPL 1473411962
4 1649.0  1.0  APPL 1473411963
'''
# drop_dujplicates() 第二个参数 keep 包含的值 有: first、last、False
print(df.drop_duplicates(['Seqno'], keep='last')) # 保存最后一个
'''
 Price Seqno Symbol    time
3 1623.0  0.0  APPL 1473411963
4 1649.0  1.0  APPL 1473411963
'''

pandas 去除重复行


DataFrame.drop_duplicates(subset = None,keep ='first',inplace = False )

subset : 指定列,默认情况下使用所有列

keep : {'first','last',False},默认'first'

first :删除重复项保留第一次出现的。last :删除重复项保留最后一次出现的。false:删除所有重复项。

inplace : 布尔值,默认为False          是否删除重复项或返回副本

栗子:

pandas中的数据去重处理的实现方法

来源:https://blog.csdn.net/missyougoon/article/details/83926840

标签:Pandas,清除重复数据
0
投稿

猜你喜欢

  • JavaScript定时器实现的原理分析

    2023-08-23 10:24:16
  • Access数据库操作中出现的怪现象

    2008-04-24 14:22:00
  • Django如何与Ajax交互

    2023-05-09 12:53:11
  • Python Pygame实现俄罗斯方块

    2023-03-17 07:18:03
  • python openssl模块安装及用法

    2023-07-03 12:01:04
  • python OpenCV 实现高斯滤波详解

    2022-11-22 16:40:34
  • Python的组合模式与责任链模式编程示例

    2023-05-08 07:03:43
  • PHP实现异步定时多任务消息推送

    2023-05-25 09:51:29
  • Python面试题之统计哈希列表中最多元素

    2023-06-26 20:24:49
  • python自动化办公操作PPT的实现

    2023-06-14 03:43:47
  • 安装PHP可能遇到的问题“无法载入mysql扩展” 的解决方法

    2023-09-09 04:37:39
  • 游戏的用户体验营销小札

    2009-08-30 15:13:00
  • 解决IE下提示“无法打开Internet站点 已终止操作”的错误

    2009-03-04 12:04:00
  • fso怎样判断一个盘上是否有文件

    2007-09-26 12:35:00
  • Python中操作文件之write()方法的使用教程

    2023-12-29 06:06:13
  • 别人复制你网站的文章时自动加上注释

    2009-02-09 13:20:00
  • 彻底终结浏览器Cache页面的解决方案

    2008-04-21 15:10:00
  • Python接口自动化判断元素原理解析

    2022-09-04 18:33:58
  • Python中turtle库常用代码汇总

    2021-02-24 06:50:38
  • Asp DatePart 函数的语法详解(用于计算日期并返回指定的时间间隔)

    2012-12-04 20:04:29
  • asp之家 网络编程 m.aspxhome.com