python 高效去重复 支持GB级别大文件的示例代码
作者:夜班机器人 时间:2022-06-18 09:39:48
如下所示:
#coding=utf-8
import sys, re, os
def getDictList(dict):
regx = '''[\w\~`\!\@\#\$\%\^\&\*\(\)\_\-\+\=\[\]\{\}\:\;\,\.\/\<\>\?]+'''
with open(dict) as f:
data = f.read()
return re.findall(regx, data)
def rmdp(dictList):
return list(set(dictList))
def fileSave(dictRmdp, out):
with open(out, 'a') as f:
for line in dictRmdp:
f.write(line + '\n')
def main():
try:
dict = sys.argv[1].strip()
out = sys.argv[2].strip()
except Exception, e:
print 'error:', e
me = os.path.basename(__file__)
print 'usage: %s <input> <output>' %me
print 'example: %s dict.txt dict_rmdp.txt' %me
exit()
dictList = getDictList(dict)
dictRmdp = rmdp(dictList)
fileSave(dictRmdp, out)
if __name__ == '__main__':
main()
来源:https://blog.csdn.net/meinaozi/article/details/79326512
标签:python,去重复
0
投稿
猜你喜欢
Python边缘检测之prewitt,sobel和laplace算子详解
2023-09-30 06:01:56
Python爬虫必备技巧详细总结
2022-10-02 12:47:44
opencv导入头文件时报错#include的解决方法
2023-03-28 04:34:34
解析mysqldump的delay-insert选项
2024-01-27 02:57:16
Oracle捕获问题SQL解决CPU过渡消耗
2010-07-21 13:14:00
详解git submodule使用以及注意事项
2023-04-30 21:11:30
MySql 8.0.16版本安装提示已经不使用“UTF8B3”而是使用“UTF8B4”问题
2024-01-23 12:43:57
python爬取股票最新数据并用excel绘制树状图的示例
2023-11-23 14:37:24
PyTorch中view()与 reshape()的区别详析
2023-11-16 05:45:23
11个案例讲透Python函数参数小结
2023-08-01 13:38:10
5个css布局的常见问题及解决方法
2009-11-19 13:21:00
numpy库reshape用法详解
2022-02-13 22:00:56
Python使用scapy模块发包收包
2021-04-26 16:32:12
Python切片操作深入详解
2021-07-06 08:39:26
利用Golang解析json数据的方法示例
2024-04-27 15:36:04
Python爬虫实战之爬取携程评论
2022-02-03 14:26:23
Java中正则表达式split()特殊符号使用详解
2022-06-27 15:59:32
Django利用AJAX技术实现博文实时搜索
2023-01-02 01:57:50
Pytorch Tensor基本数学运算详解
2022-12-09 03:26:50
Python中扩展包的安装方法详解
2021-09-19 23:35:46