pandas中的数据去重处理的实现方法

作者:我是小蚂蚁 时间:2022-05-13 23:28:50 

数据去重可以使用duplicated()和drop_duplicates()两个方法。

DataFrame.duplicated(subset = None,keep =‘first' )返回boolean Series表示重复行

参数: 
subset:列标签或标签序列,可选
仅考虑用于标识重复项的某些列,默认情况下使用所有列
keep:{‘first',‘last',False},默认'first'

  • first:标记重复,True除了第一次出现。

  • last:标记重复,True除了最后一次出现。

  • 错误:将所有重复项标记为True。


import numpy as np
import pandas as pd
from pandas import Series, DataFrame

df = pd.read_csv('./demo_duplicate.csv')
print(df)
print(df['Seqno'].unique()) # [0. 1.]

# 使用duplicated 查看 重复值
# 参数 keep 可以标记重复值 {'first','last',False}
print(df['Seqno'].duplicated())
'''
0  False
1   True
2   True
3   True
4  False
Name: Seqno, dtype: bool
'''

# 删除 series 重复数据
print(df['Seqno'].drop_duplicates())
'''
0  0.0
4  1.0
Name: Seqno, dtype: float64
'''

# 删除 dataframe 重复数据
print(df.drop_duplicates(['Seqno'])) # 按照 Seqno 来 去重
'''
 Price Seqno Symbol    time
0 1623.0  0.0  APPL 1473411962
4 1649.0  1.0  APPL 1473411963
'''
# drop_dujplicates() 第二个参数 keep 包含的值 有: first、last、False
print(df.drop_duplicates(['Seqno'], keep='last')) # 保存最后一个
'''
 Price Seqno Symbol    time
3 1623.0  0.0  APPL 1473411963
4 1649.0  1.0  APPL 1473411963
'''

pandas 去除重复行


DataFrame.drop_duplicates(subset = None,keep ='first',inplace = False )

subset : 指定列,默认情况下使用所有列

keep : {'first','last',False},默认'first'

first :删除重复项保留第一次出现的。last :删除重复项保留最后一次出现的。false:删除所有重复项。

inplace : 布尔值,默认为False          是否删除重复项或返回副本

栗子:

pandas中的数据去重处理的实现方法

来源:https://blog.csdn.net/missyougoon/article/details/83926840

标签:Pandas,清除重复数据
0
投稿

猜你喜欢

  • MySQL与PHP的基础与应用专题之数据查询

    2023-11-10 10:09:55
  • java正则表达式应用的实例代码

    2022-09-15 20:56:48
  • 发一段鼠标掠过表格行颜色改变的代码

    2010-07-02 12:59:00
  • 树莓派升级python的具体步骤

    2023-08-04 00:28:49
  • numpy数组广播的机制

    2023-08-15 11:41:31
  • Python Socket传输文件示例

    2023-10-18 17:19:00
  • Python的Tornado Web框架深入解析

    2021-11-28 03:14:51
  • go语言beego框架分页器操作及接口频率限制示例

    2024-04-25 15:15:13
  • Python爬虫:Request Payload和Form Data的简单区别说明

    2021-11-14 14:01:24
  • 基于np.arange与np.linspace细微区别(数据溢出问题)

    2021-08-29 23:46:25
  • Python常用小技巧总结

    2023-02-27 17:50:16
  • Python pip安装第三方库实现过程解析

    2022-01-04 02:17:31
  • 禁止拷贝网页内容的js代码

    2024-04-25 13:07:50
  • go类型转换及与C的类型转换方式

    2024-04-28 09:18:38
  • python ip正则式

    2022-02-13 22:13:02
  • 简单介绍MySQL中索引的使用方法

    2024-01-15 07:04:50
  • SQL2005 四个排名函数(row_number、rank、dense_rank和ntile)的比较

    2024-01-18 02:47:08
  • 解决Python安装时报缺少DLL问题【两种解决方法】

    2023-12-27 01:49:12
  • 在PyCharm中三步完成PyPy解释器的配置的方法

    2021-02-20 04:12:17
  • 107条javascript(js)常用小技巧

    2007-10-30 12:40:00
  • asp之家 网络编程 m.aspxhome.com