Python用list或dict字段模式读取文件的方法

作者:Crazyant 时间:2022-07-16 18:29:07 

前言

Python用于处理文本数据绝对是个利器,极为简单的读取、分割、过滤、转换支持,使得开发者不需要考虑繁杂的流文件处理过程(相对于JAVA来说的,嘻嘻)。博主自己工作中,一些复杂的文本数据处理计算,包括在HADOOP上编写Streaming程序,均是用Python完成。

而在文本处理的过程中,将文件加载内存中是第一步,这就涉及到怎样将文件中的某一列映射到具体的变量的过程,最最愚笨的方法,就是按照字段的下标进行引用,比如这样子:


# fields是读取了一行,并且按照分隔符分割之后的列表
user_id = fields[0]
user_name = fields[1]
user_type = fields[2]

如果按照这种方式读取,一旦文件有顺序、增减列的变动,代码的维护是个噩梦,这种代码一定要杜绝。

本文推荐两种优雅的方式来读取数据,都是先配置字段模式,然后按照模式读取,而模式则有字典模式和列表模式两种形式;

读取文件,按照分隔符分割成字段数据列表

首先读取文件,按照分隔符分割每一行的数据,返回字段列表,以便后续处理。

代码如下:


def read_file_data(filepath):
'''根据路径按行读取文件, 参数filepath:文件的绝对路径
@param filepath: 读取文件的路径
@return: 按\t分割后的每行的数据列表
'''
fin = open(filepath, 'r')
for line in fin:
 try:
  line = line[:-1]
  if not line: continue
 except:
  continue

try:
  fields = line.split("\t")
 except:
  continue
 # 抛出当前行的分割列表
 yield fields
fin.close()

使用yield关键字,每次抛出单个行的分割数据,这样在调度程序中可以用for fields in read_file_data(fpath)的方式读取每一行。

映射到模型之方法1:使用配置好的字典模式,装配读取的数据列表

这种方法配置一个{“字段名”: 字段位置}的字典作为数据模式,然后按照该模式装配读取的列表数据,最后实现用字典的方式访问数据。

所使用的函数:


@staticmethod
def map_fields_dict_schema(fields, dict_schema):
"""根据字段的模式,返回模式和数据值的对应值;例如 fields为['a','b','c'],schema为{'name':0, 'age':1},那么就返回{'name':'a','age':'b'}
@param fields: 包含有数据的数组,一般是通过对一个Line String通过按照\t分割得到
@param dict_schema: 一个词典,key是字段名称,value是字段的位置;
@return: 词典,key是字段名称,value是字段值
"""
pdict = {}
for fstr, findex in dict_schema.iteritems():
 pdict[fstr] = str(fields[int(findex)])
return pdict

有了该方法和之前的方法,可以用以下的方式读取数据:


# coding:utf8
"""
@author: www.crazyant.net
测试使用字典模式加载数据列表
优点:对于多列文件,只通过配置需要读取的字段,就能读取对应列的数据
缺点:如果字段较多,每个字段的位置配置,较为麻烦
"""
import file_util
import pprint

# 配置好的要读取的字典模式,可以只配置自己关心的列的位置
dict_schema = {"userid":0, "username":1, "usertype":2}
for fields in file_util.FileUtil.read_file_data("userfile.txt"):
# 将字段列表,按照字典模式进行映射
dict_fields = file_util.FileUtil.map_fields_dict_schema(fields, dict_schema)
pprint.pprint(dict_fields)

输出结果:


{'userid': '1', 'username': 'name1', 'usertype': '0'}
{'userid': '2', 'username': 'name2', 'usertype': '1'}
{'userid': '3', 'username': 'name3', 'usertype': '2'}
{'userid': '4', 'username': 'name4', 'usertype': '3'}
{'userid': '5', 'username': 'name5', 'usertype': '4'}
{'userid': '6', 'username': 'name6', 'usertype': '5'}
{'userid': '7', 'username': 'name7', 'usertype': '6'}
{'userid': '8', 'username': 'name8', 'usertype': '7'}
{'userid': '9', 'username': 'name9', 'usertype': '8'}
{'userid': '10', 'username': 'name10', 'usertype': '9'}
{'userid': '11', 'username': 'name11', 'usertype': '10'}
{'userid': '12', 'username': 'name12', 'usertype': '11'}

映射到模型之方法2:使用配置好的列表模式,装配读取的数据列表

如果需要读取文件所有列,或者前面的一些列,那么配置字典模式优点复杂,因为需要给每个字段配置索引位置,并且这些位置是从0开始完后数的,属于低级劳动,需要消灭。

列表模式应命运而生,先将配置好的列表模式转换成字典模式,然后按字典加载就可以实现。

转换模式,以及用按列表模式读取的代码:


@staticmethod
def transform_list_to_dict(para_list):
"""把['a', 'b']转换成{'a':0, 'b':1}的形式
@param para_list: 列表,里面是每个列对应的字段名
@return: 字典,里面是字段名和位置的映射
"""
res_dict = {}
idx = 0
while idx < len(para_list):
 res_dict[str(para_list[idx]).strip()] = idx
 idx += 1
return res_dict

@staticmethod
def map_fields_list_schema(fields, list_schema):
"""根据字段的模式,返回模式和数据值的对应值;例如 fields为['a','b','c'],schema为{'name', 'age'},那么就返回{'name':'a','age':'b'}
@param fields: 包含有数据的数组,一般是通过对一个Line String通过按照\t分割得到
@param list_schema: 列名称的列表list
@return: 词典,key是字段名称,value是字段值
"""
dict_schema = FileUtil.transform_list_to_dict(list_schema)
return FileUtil.map_fields_dict_schema(fields, dict_schema)

使用的时候,可以用列表的形式配置模式,不需要配置索引更加简洁:


# coding:utf8
"""
@author: www.crazyant.net
测试使用列表模式加载数据列表
优点:如果读取所有列,用列表模式只需要按顺序写出各个列的字段名就可以
缺点:不能够只读取关心的字段,需要全部读取
"""
import file_util
import pprint

# 配置好的要读取的列表模式,只能配置前面的列,或者所有咧
list_schema = ["userid", "username", "usertype"]
for fields in file_util.FileUtil.read_file_data("userfile.txt"):
# 将字段列表,按照字典模式进行映射
dict_fields = file_util.FileUtil.map_fields_list_schema(fields, list_schema)
pprint.pprint(dict_fields)

运行结果和字典模式的完全一样。

file_util.py全部代码

以下是file_util.py中的全部代码,可以放在自己的公用类库中使用


# -*- encoding:utf8 -*-
'''
@author: www.crazyant.net
@version: 2014-12-5
'''

class FileUtil(object):
'''文件、路径常用操作方法
'''
@staticmethod
def read_file_data(filepath):
 '''根据路径按行读取文件, 参数filepath:文件的绝对路径
 @param filepath: 读取文件的路径
 @return: 按\t分割后的每行的数据列表
 '''
 fin = open(filepath, 'r')
 for line in fin:
  try:
   line = line[:-1]
   if not line: continue
  except:
   continue

try:
   fields = line.split("\t")
  except:
   continue
  # 抛出当前行的分割列表
  yield fields
 fin.close()

@staticmethod
def transform_list_to_dict(para_list):
 """把['a', 'b']转换成{'a':0, 'b':1}的形式
 @param para_list: 列表,里面是每个列对应的字段名
 @return: 字典,里面是字段名和位置的映射
 """
 res_dict = {}
 idx = 0
 while idx < len(para_list):
  res_dict[str(para_list[idx]).strip()] = idx
  idx += 1
 return res_dict

@staticmethod
def map_fields_list_schema(fields, list_schema):
 """根据字段的模式,返回模式和数据值的对应值;例如 fields为['a','b','c'],schema为{'name', 'age'},那么就返回{'name':'a','age':'b'}
 @param fields: 包含有数据的数组,一般是通过对一个Line String通过按照\t分割得到
 @param list_schema: 列名称的列表list
 @return: 词典,key是字段名称,value是字段值
 """
 dict_schema = FileUtil.transform_list_to_dict(list_schema)
 return FileUtil.map_fields_dict_schema(fields, dict_schema)

@staticmethod
def map_fields_dict_schema(fields, dict_schema):
"""根据字段的模式,返回模式和数据值的对应值;例如 fields为['a','b','c'],schema为{'name':0, 'age':1},那么就返回{'name':'a','age':'b'}
@param fields: 包含有数据的数组,一般是通过对一个Line String通过按照\t分割得到
@param dict_schema: 一个词典,key是字段名称,value是字段的位置;
@return: 词典,key是字段名称,value是字段值
"""
pdict = {}
for fstr, findex in dict_schema.iteritems():
 pdict[fstr] = str(fields[int(findex)])
return pdict

来源:http://www.crazyant.net/1707.html

标签:python,list,dict
0
投稿

猜你喜欢

  • JavaScript常用的返回,自动跳转,刷新,关闭语句汇总

    2023-10-21 10:37:27
  • 交互设计师应该具备哪些素质

    2009-03-12 12:21:00
  • set rs=server.CreateObject("adodb.recordset") 的中文详细说明

    2011-03-06 11:21:00
  • python+requests+pytest接口自动化的实现示例

    2022-11-01 06:12:27
  • 浅谈uniapp页面跳转的解决方案

    2023-08-23 01:45:51
  • Python的时间模块datetime详解

    2023-10-17 01:36:48
  • 悟道Web标准:让W3C标准兼容终端

    2009-10-11 16:40:00
  • Python计算程序运行时间的方法

    2023-08-09 09:53:50
  • Python开发企业微信机器人每天定时发消息实例

    2022-11-17 14:37:27
  • Python实战项目用PyQt5制作漫画脸GUI界面

    2023-07-05 13:17:19
  • 解析WordPress中函数钩子hook的作用及基本用法

    2023-07-08 03:27:52
  • ORACLE常用数值函数、转换函数、字符串函数

    2023-07-21 02:03:40
  • ASP进阶教程Ⅶ:留言簿设置密码验证

    2008-10-13 09:02:00
  • SQL Server和Oracle并行处理方法对比

    2009-01-20 15:48:00
  • python转换字符串为摩尔斯电码的方法

    2022-01-01 10:17:44
  • 用css和js实现firefox和IE支持局部打印

    2008-05-23 13:04:00
  • SQL截取字符串函数分享

    2011-11-03 17:07:37
  • canvas实现手机端用来上传用户头像的代码

    2023-09-16 02:30:54
  • php 文件缓存函数

    2023-11-06 15:28:47
  • min-height 的原始实现方式

    2008-06-29 15:04:00
  • asp之家 网络编程 m.aspxhome.com