对python数据切割归并算法的实例讲解

作者:body_builder 时间:2023-02-10 05:32:08 

当一个 .txt 文件的数据过于庞大,此时想要对数据进行排序就需要先将数据进行切割,然后通过归并排序,最终实现对整体数据的排序。要实现这个过程我们需要进行以下几步:获取总数据行数;根据行数按照自己的需要对数据进行切割;对每组数据进行排序 最后对所有数据进行归并排序。

下面我们就来实现这整个过程:

一:获取总数据的行


def get_file_lines(file_path):
# 目标文件的路径
file_path = str(file_path)
with open(file_path, 'rb') as file:
 # 定义行数
 i = 0
 while True:
  # 一次读取一行数据
  line = file.readline()
  if not line :
   break
  else:
   # 每读一行,行数加一
   i += 1
  #设置进度条,每当i读取1000000行时打印一次i
  # 每当读取1000000的整数倍行时,打印行数(进度条)
  if i % 1000000 == 0:
   print(i)
 # 打印总行数
 print(i)
 return i

二:对数据进行切割


# 定义均等切割函数,num是待切割的文件的行数的值,n为切割份数,file_path是待切割的文件,file_dir是切割好的文件写入的目录
def evg_split(num, n, file_path, file_dir):
last_list = []
# 如果样本刚好可以整除为n份
if num % n == 0:
 for i in range(n):
  # 则直接将样本分为n分没份对应num/n个
  last_list.append(num / n)
# 如果不能整除
if num % n != 0:
 # 如果不能整除,则先将num整除n-1并取n-1份,余下的单独做一份
 evg = (num - num % n) // (n - 1)
 for i in range(n):
  last_list.append(evg)
 last_list.append(num % (n - 1))
print(last_list)
# return last_list
# 对应于切割后的每一份数据
with open(file_path, 'rb') as path:
 for i in range(n):
  # 创建临时文件
  tmp_file = file_dir + str(i) + '.txt'
  # 打开临时文件,将内容一条一条的写入
  file = open(tmp_file, 'wb')
  for j in range(int(last_list[i])):
   line = path.readline()
   file.write(line)
   print(line)
  print('------------')
  file.close()

三:对每组数据进行排序的内容由读者根据自身数据需要进行排序,下面直接介绍归并排序

四:归并排序


def merge( mylist1, mylist2, file1):
while len(mylist1) > 0 and len(mylist2) > 0:
 if mylist1[0]<mylist2[0]:
  with open(file1,'a') as file:
   file.write(str(mylist1[0]))
   del mylist1[0]
 elif mylist1[0] > mylist2[0]:
  with open(file1,'a') as file:
   file.write(str(mylist2[0]))
   del mylist2[0]
 else:
  with open(file1,'a') as file:
   file.write(str(mylist1[0]))
   file.write(str(mylist2[0]))
   del mylist1[0]
   del mylist2[0]
with open(file1, 'a') as file:
 for i in mylist1:
  file.write(str(i))
 for i in mylist2:
  file.write(str(i))

总结:对于一个大型数据文件,我们可以将其切割成若干个小型的数据文件,然后分别的这些小型的数据文件进行排序,最后使用归并排序将这些数据文件写入到一个总体文件中,从而实现了对这个大型数据文件的排序。

来源:https://blog.csdn.net/body_builder/article/details/79437333

标签:python,切割,归并
0
投稿

猜你喜欢

  • 基于Pytorch版yolov5的滑块验证码破解思路详解

    2022-05-06 06:22:38
  • Python实现的特征提取操作示例

    2023-02-07 06:08:04
  • python将ip地址转换成整数的方法

    2022-10-17 23:40:23
  • Python进程通信之匿名管道实例讲解

    2021-08-26 16:23:46
  • 分享五个超实用Python脚本,减少垃圾软件负担

    2022-07-18 18:38:59
  • ASP新闻分页,将一篇过长的文章分页,生成静态页面

    2011-04-10 11:14:00
  • MySQL数据库的双向加密方式

    2009-11-18 11:07:00
  • 在Python中使用defaultdict初始化字典以及应用方法

    2021-01-05 02:03:02
  • python使用多线程不断刷新网页的方法

    2022-10-03 09:19:26
  • 23条科学设计你网站的方法

    2008-03-23 14:12:00
  • 用色彩打造专业的视觉效果

    2010-09-25 19:04:00
  • 基于wxpython开发的简单gui计算器实例

    2023-09-09 04:42:25
  • django自带的server 让外网主机访问方法

    2023-06-03 22:59:50
  • Python Flask-web表单使用详解

    2022-07-14 01:55:59
  • python生成器generator:深度学习读取batch图片的操作

    2022-07-31 08:43:06
  • 利用python爬取斗鱼app中照片方法实例

    2022-01-03 17:40:39
  • 分享python机器学习中应用所产生的聚类数据集方法

    2021-06-05 13:28:39
  • 利用numba让python速度提升百倍

    2022-06-12 14:31:02
  • Python3内置模块pprint让打印比print更美观详解

    2022-02-04 01:55:28
  • 设计中基于人类学的田野调查与比较研究法 ——浅谈用研与竞品分析方法之理论基础

    2009-08-31 16:45:00
  • asp之家 网络编程 m.aspxhome.com