Pandas实现一列数据分隔为两列

作者:Dennis_Shaw 时间:2021-01-06 04:31:36 

分割成一个包含两个元素列表的列

对于一个已知分隔符的简单分割(例如,用破折号分割或用空格分割).str.split() 方法就足够了 。 它在字符串的列(系列)上运行,并返回列表(系列)。


>>> import pandas as pd
>>> df = pd.DataFrame({'AB': ['A1-B1', 'A2-B2']})
>>> df

AB
0 A1-B1
1 A2-B2
>>> df['AB_split'] = df['AB'].str.split('-')
>>> df

AB AB_split
0 A1-B1 [A1, B1]
1 A2-B2 [A2, B2]

分割成两列,每列包含列表的相应元素

下面来看下如何从:分割成一个包含两个元素列表的列至分割成两列,每列包含列表的相应元素。


>>> df['AB'].str[0]

0 A
1 A
Name: AB, dtype: object

>>> df['AB'].str[1]

0 1
1 2
Name: AB, dtype: object

因此可以得到


>>> df['AB'].str.split('-', 1).str[0]

0 A1
1 A2
Name: AB, dtype: object

>>> df['AB'].str.split('-', 1).str[1]

0 B1
1 B2
Name: AB, dtype: object

可以通过如下代码将pandas的一列分成两列:


>>> df['A'], df['B'] = df['AB'].str.split('-', 1).str
>>> df

AB AB_split A B
0 A1-B1 [A1, B1] A1 B1
1 A2-B2 [A2, B2] A2 B2

补充知识:pandas某一列中每一行拆分成多行的方法

在处理数据过程中,常会遇到将一条数据拆分成多条,比如一个人的地址信息中,可能有多条地址,既有家庭地址也有工作地址,还有电话信息等等类似的情况,实际使用数据的时候又需要分开处理,这个时候就需要将这一条数据进行拆分成多条,以方便使用。

在pandas中如何对DataFrame进行相关操作呢,经查阅相关资料,发现了一个简单的办法,

info.drop(['city'], axis=1).join(info['city'].str.split(' ', expand=True).stack().reset_index(level=1, drop=True).rename('city'))

看起来非常之长,分开来看,流程如下:

将需要拆分的数据使用split拆分工具拆分,并使用expand功能拆分成多列

将拆分后的多列数据进行列转行操作(stack),合并成一列

将生成的复合索引重新进行reset保留原始的索引,并命名

将上面处理后的DataFrame和原始DataFrame进行join操作,默认使用的是索引进行连接

具体操作如下:

预操作:生成需要使用的DataFrame


# 用来生成DataFrame的工具
from pydbgen import pydbgen
myDB=pydbgen.pydb()

# 生成一个DataFrame
info = myDB.gen_dataframe(10,['name','phone','city','state'])

结果如下:


namephone-numbercitystate
0Hannah Richard810-859-7815IrwinvilleLouisiana
1Ronald Berry591-564-0585Glen EllenMinnesota
2Caitlin Barron969-840-8580DuboisOklahoma
3Felicia Stephens154-858-1233VeedersburgAlaska
4Shelly Dennis343-104-9365MattapexVirginia
5Nicholas Hill992-239-1954MonetaMinnesota
6Steve Bradshaw164-081-7811Ten BroeckColorado
7Gail Johnston155-259-9514WayanVirginia
8John Gray409-892-4716DarlingtonPennsylvania
9Katherine Bautista185-861-1677McNabTexas

假如现在我们要对city列进行进行拆分,按照空格拆分,转换成多行的数据,
第一步:拆分,生成多列

info_city = info['city'].str.split(' ', expand=True)

结果如下:


01
0IrwinvilleNone
1GlenEllen
2DuboisNone
3VeedersburgNone
4MattapexNone
5MonetaNone
6TenBroeck
7WayanNone
8DarlingtonNone
9McNabNone

可以看到已经将原始数据拆分成了2列,对于无法拆分的数据为None

第二步:行转列

info_city = info_city.stack()

结果如下:




00Irwinville
10Glen

1Ellen
20Dubois
30Veedersburg
40Mattapex
50Moneta
60Ten

1Broeck
70Wayan
80Darlington
90McNab

其中前面两列是索引,返回的是一个series,没有名字的series

第三步:重置索引,并命名(并删除多于的索引)

info_city = info_city.reset_index(level=1, drop=True)

结果如下:



0Irwinville
1Glen
1Ellen
2Dubois
3Veedersburg
4Mattapex
5Moneta
6Ten
6Broeck
7Wayan
8Darlington
9McNab

第四步:和原始数据合并

info_new = info.drop(['city'], axis=1).join(info_city)

结果如下:


namephone-numberstatecity
0Hannah Richard810-859-7815LouisianaIrwinville
1Ronald Berry591-564-0585MinnesotaGlen
1Ronald Berry591-564-0585MinnesotaEllen
2Caitlin Barron969-840-8580OklahomaDubois
3Felicia Stephens154-858-1233AlaskaVeedersburg
4Shelly Dennis343-104-9365VirginiaMattapex
5Nicholas Hill992-239-1954MinnesotaMoneta
6Steve Bradshaw164-081-7811ColoradoTen
6Steve Bradshaw164-081-7811ColoradoBroeck
7Gail Johnston155-259-9514VirginiaWayan
8John Gray409-892-4716PennsylvaniaDarlington
9Katherine Bautista185-861-1677TexasMcNab

需要特别注意的是,需要使用原始的连接新生成的,因为新生成的是一个series没有join方法,也可以通过将生成的series通过to_frame方法转换成DataFrame,这样就没有什么差异了

写了这么多,记住下面的就行了:

info.drop([‘city'], axis=1).join(info[‘city'].str.split(' ', expand=True).stack().reset_index(level=1, drop=True).rename(‘city'))

如果原数据中已经是list了,可以将info[‘city'].str.split(' ', expand=True)这部分替换成info[‘city'].apply(lambda x: pd.Series(x)),就可以达到相同的目的。

来源:https://blog.csdn.net/Dennis_Shaw/article/details/96136723

标签:Pandas,一列,分隔,两列
0
投稿

猜你喜欢

  • 在Python函数中输入任意数量参数的实例

    2022-07-09 04:58:08
  • Python3几个常见问题的处理方法

    2022-08-04 10:48:56
  • 跟老齐学Python之关于循环的小伎俩

    2022-07-20 07:03:36
  • 描述性列表的表现形式

    2008-09-17 13:43:00
  • django云端留言板实例详解

    2023-12-13 08:17:59
  • asp如何做一个全面的服务器探测器?

    2010-07-12 18:55:00
  • python文件转为exe文件的方法及用法详解

    2022-08-18 00:14:17
  • python 实现"神经衰弱"翻牌游戏

    2023-02-08 05:34:05
  • SQLServer 2000 升级到 SQLServer 2008 性能之需要注意的地方之一

    2012-02-25 19:44:26
  • python文件读取失败怎么处理

    2023-05-06 17:14:46
  • Python金融数据可视化汇总

    2023-04-12 21:27:41
  • IE10增强对HTML5和CSS3的支持

    2011-09-16 20:16:28
  • 详解python中的闭包

    2023-09-25 13:37:33
  • 利用Python操作消息队列RabbitMQ的方法教程

    2022-12-11 21:52:16
  • python将字典内容写入json文件的实例代码

    2023-08-08 09:14:55
  • 详谈python3中用for循环删除列表中元素的坑

    2023-08-01 06:04:31
  • 网页中的平衡、对比、连贯和留白

    2008-11-24 12:11:00
  • 浅谈ACCESS数据库升迁SQLSERVER注意事项

    2007-08-11 13:44:00
  • SQL事务用法begin tran,commit tran和rollback tran的用法

    2012-01-05 18:58:51
  • Python的Django框架中的数据过滤功能

    2022-02-01 05:48:40
  • asp之家 网络编程 m.aspxhome.com