python 高效去重复 支持GB级别大文件的示例代码

作者:夜班机器人 时间:2022-06-18 09:39:48 

如下所示:


#coding=utf-8

import sys, re, os

def getDictList(dict):
 regx = '''[\w\~`\!\@\#\$\%\^\&\*\(\)\_\-\+\=\[\]\{\}\:\;\,\.\/\<\>\?]+'''
 with open(dict) as f:
   data = f.read()
   return re.findall(regx, data)

def rmdp(dictList):
 return list(set(dictList))

def fileSave(dictRmdp, out):
 with open(out, 'a') as f:
   for line in dictRmdp:
     f.write(line + '\n')

def main():
 try:
   dict = sys.argv[1].strip()
   out = sys.argv[2].strip()
 except Exception, e:
   print 'error:', e
   me = os.path.basename(__file__)
   print 'usage: %s <input> <output>' %me
   print 'example: %s dict.txt dict_rmdp.txt' %me
   exit()

dictList = getDictList(dict)
 dictRmdp = rmdp(dictList)
 fileSave(dictRmdp, out)

if __name__ == '__main__':
 main()

来源:https://blog.csdn.net/meinaozi/article/details/79326512

标签:python,去重复
0
投稿

猜你喜欢

  • Python边缘检测之prewitt,sobel和laplace算子详解

    2023-09-30 06:01:56
  • Python爬虫必备技巧详细总结

    2022-10-02 12:47:44
  • opencv导入头文件时报错#include的解决方法

    2023-03-28 04:34:34
  • 解析mysqldump的delay-insert选项

    2024-01-27 02:57:16
  • Oracle捕获问题SQL解决CPU过渡消耗

    2010-07-21 13:14:00
  • 详解git submodule使用以及注意事项

    2023-04-30 21:11:30
  • MySql 8.0.16版本安装提示已经不使用“UTF8B3”而是使用“UTF8B4”问题

    2024-01-23 12:43:57
  • python爬取股票最新数据并用excel绘制树状图的示例

    2023-11-23 14:37:24
  • PyTorch中view()与 reshape()的区别详析

    2023-11-16 05:45:23
  • 11个案例讲透Python函数参数小结

    2023-08-01 13:38:10
  • 5个css布局的常见问题及解决方法

    2009-11-19 13:21:00
  • numpy库reshape用法详解

    2022-02-13 22:00:56
  • Python使用scapy模块发包收包

    2021-04-26 16:32:12
  • Python切片操作深入详解

    2021-07-06 08:39:26
  • 利用Golang解析json数据的方法示例

    2024-04-27 15:36:04
  • Python爬虫实战之爬取携程评论

    2022-02-03 14:26:23
  • Java中正则表达式split()特殊符号使用详解

    2022-06-27 15:59:32
  • Django利用AJAX技术实现博文实时搜索

    2023-01-02 01:57:50
  • Pytorch Tensor基本数学运算详解

    2022-12-09 03:26:50
  • Python中扩展包的安装方法详解

    2021-09-19 23:35:46
  • asp之家 网络编程 m.aspxhome.com