用Python自动清理电脑内重复文件,只要10行代码(自动脚本)
作者:小小程序员ol 发布时间:2021-03-23 05:09:50
给定一个文件夹,使用Python检查给定文件夹下有无文件重复,若存在重复则删除
主要涉及的知识点有:
os模块综合应用
glob模块综合应用
利用filecmp模块比较两个文件
步骤分析
该程序实现的逻辑可以具化为:
遍历获取给定文件夹下的所有文件,然后通过嵌套循环两两比较文件是否相同,如果相同则删除后者。
实现问题的关键就变成了
如何判断两个文件是否相同?
在这里我们可以使用filecmp模块,来看看官方的介绍文档:
filecmp.cmp(f1, f2, shallow=True)
比较名为f1和f2的文件,如果它们似乎相等则返回True,否则返回False
如果shallow为真,那么具有相同os.stat()签名的文件将会被认为是相等的。否则,将比较文件的内容。
所以可以这样使用
# 假设x和y两个文件是相同的
print(filecmp.cmp(x, y))
# True
解决了这个问题,我们就可以开始写代码了!
Python实现
导入需要的库并设置目标文件夹路径
import os
import glob
import filecmp
dir_path = r'C:\\xxxx'
接着遍历获取所有文件的绝对路径,我们可以利用glob模块的通配符结合recursive参数即可完成,框架如下:
for file in glob.glob(path + '/**/*', recursive=True):
pass
由于遍历获取每一个文件或者文件夹后,需要判断是否是文件,如果是文件则可能将绝对路径存放到列表中,这里需要再完成两个事情:
首先创建一个空列表,后面用list.append(i)添加文件路径
接着利用os.path.isfile(i)判断是否是文件,返回True则执行添加元素的操作
具体代码如下
file_lst = []
for i in glob.glob(dir_path + '/**/*', recursive=True):
if os.path.isfile(i):
file_lst.append(i)
上一步我们获取了目标文件夹下的所有文件路径,接下来就可以嵌套遍历这个路径列表,其中filecmp.cmp
进行文件判断,os.remove
进行文件删除
for x in file_lst:
for y in file_lst:
if x != y:
if filecmp.cmp(x, y):
os.remove(y)
这里的代码已经实现了大致逻辑,但有一个细节需要考虑到:有可能循环到文件已经被前面的判断删除了,导致os.remove(file)
由于文件不存在而报错
因此,可以用os.path.exists对文件存在进行判断,如下所示:
for x in file_lst:
for y in file_lst:
if x != y and os.path.exists(x) and os.path.exists(y):
if filecmp.cmp(x, y):
os.remove(y)
这样,一个简易的文件去重小程序就完成了,完整代码如下:
import os
import glob
import filecmp
dir_path = r'C:\xxxx'
file_lst = []
for i in glob.glob(dir_path + '/**/*', recursive=True):
if os.path.isfile(i):
file_lst.append(i)
for x in file_lst:
for y in file_lst:
if x != y and os.path.exists(x) and os.path.exists(y):
if filecmp.cmp(x, y):
os.remove(y)
写在最后
通过本文的Python自动化脚本制作过程,我们可以再次体会Python办公自动化的强大
来源:https://www.cnblogs.com/python960410445/archive/2021/01/08/14253396.html


猜你喜欢
- 有些时候,我们需要将某些程序放到子进程中去运行,以达到整合系统的目的。在Python中,一个非常好的选择就是使用subprocess模块,本
- 一、安装mysqlclient网上看到很过通过命令:pip install mysqlclient 进行安装的教程,但是我却始终安装失败,遇
- 本文实例讲述了Python中DJANGO简单测试的用法。分享给大家供大家参考。具体如下:这里以facebook台湾的测试版为例。仅仅测试用户
- 01.简介当我们使用的鱼眼镜头视角大于160°时,OpenCV中用于校准镜头“经典”方法的效果可能就不是和理想了。即使我们仔细遵循OpenC
- 导入相关包import timeimport pydashimport base64import requestsfrom lxml imp
- <html><head><meta http-equiv="Content-T
- 打开editor/filemanager/connectors/php目录下commands.php,找到FileUpload函数,在$sE
- 本文实例讲述了python通过pil将图片转换成黑白效果的方法。分享给大家供大家参考。具体分析如下:pil功能强大,convert方法可以轻
- 1、变量的定义定义变量语法格式:variable_name = variable_namevariable_name表示变量名;variab
- 〝 古人学问遗无力,少壮功夫老始成 〞python之tkinter库弹窗messagebox,常码字不易,出精品更难,没有特别幸运,那么请先
- 想用linux虚拟机装一个oracle,中间遇到的坑太多了,最后总算是安装好了,一定要写个全面的教程出来。话不多说通用编辑命令:vi tes
- 在对列表的元素进行找寻时,会频繁的说到遍历的理念。对于复杂的遍历要求,如多个列表中查找就显然不适合用for循环。本篇所要带来的是zip()
- import httplibimport osimport timedef check_http(i):
- 前提1. Cookie 是脆弱的。cookie 容易被窃取和受到垮站脚本的攻击,我们必须接受 cookie 是不安全的。2. 持久化登录 c
- 实验介绍增量恢复一般适用的场景:1、人为的sql语句破坏了数据库2、在进行下一次完全备份之前发生系统故障导致数据库数据丢失3、在主从架构中,
- html5的webAPI接口可以很轻松的使用短短的几行代码就实现点击按钮复制区域文本的功能,不需要依赖flash。代码如下:/* 创建ran
- 阅读器访问地址:http://easyrss.tk/,欢迎体验!阅读导览一、 概述 二、 设计的基本概念和原理 三、 设计方案四、 主要源代
- 何为样本分布不均:样本分布不均衡就是指样本差异非常大,例如共1000条数据样本的数据集中,其中占有10条样本分类,其特征无论如何你和也无法实
- 前言sklearn是python的重要机器学习库,其中封装了大量的机器学习算法,如:分类、回归、降维以及聚类;还包含了监督学习、非监督学习、
- 思想:4个数字的排列,加上3个运算符的排列,使用后缀表达式的表现如下:情形一:1,2,3,4,+,-,* => 24*24*4情形二: