当前位置: 首页 > 图灵资讯 > 行业资讯> python如何判断文件夹内的重复图片

python如何判断文件夹内的重复图片

来源:图灵python
时间: 2024-07-16 10:21:59

步骤

1、首先,根据图片的大小,将所有图片放在图片的大小上(byte)进行分类,然后进行分类比较。

2、重复图片很可能会连续出现(因为重复图片的大小相同)

要判断文件夹中是否有相同的图片,需要对文件夹中的所有图片进行分类,并逐一判断两张图片是否相同。

如果文件夹中有1000张图片,则第一张图片需要与剩余的999张图片进行比较,第二张图片需要与剩余的998张图片进行比较,第三张图片需要与剩余的997张图片进行比较,以此类推。

实例

if__name__='__main__':

load_path='E:\\测试图片集(未去重)'#去重文件夹
save_path='E:\测试图片集(重复照片)'#空文件夹,用于存储检测到的重复照片
os.makedirs(save_path,exist_ok=True)

#获取图片列表file_map,字典{文件路径filename:image_文件大小size}
file_map={}
image_size=0
#文件夹(包括子目录)遍历filePath下
forparent,dirnames,filenamesinos.walk(load_path):
#fordirnameindirnames:
#print('parentis%s,dirnameis%s'%(parent,dirname))
forfilenameinfilenames:
#print('parentis%s,filenameis%s'%(parent,filename))
#print('thefullnameofthefileis%s'%os.path.join(parent,filename))
image_size=os.path.getsize(os.path.join(parent,filename))
file_map.setdefault(os.path.join(parent,filename),image_size)

#获得的图片列表按照文件大小image_size排序
file_map=sorted(file_map.items(),key=lambdad:d[1],reverse=False)
file_list=[]
forfilename,image_sizeinfile_map:
file_list.append(filename)

#取出重复的图片
file_repeat=[]
forcurrIndex,filenameinenumerate(file_list):
dir_image1=file_list[currIndex]
dir_image2=file_list[currIndex+1]
result=比较两张图片是否相同(dir_image1,dir_image2)
if(result=="两张图相同"):
file_repeat.append(file_list[currIndex+1])
print("图片\n相同:",file_list[currIndex],file_list[currIndex+1])
else:
print('\n不同的图片:',file_list[currIndex],file_list[currIndex+1])
currIndex+=1
ifcurrIndex>=len(file_list)-1:
break

#将重复的图片移动到新的文件夹中,以减少原始文件夹的重量
forimageinfile_repeat:
shutil.move(image,save_path)
print("重复照片正在移除:",image)

以上是python判断文件夹中重复图片的方法,希望对大家有所帮助。更多Python学习指导:python基础教程

本文教程操作环境:windows7系统Python 3.9.1,DELL G3电脑。