快速删掉文件夹里重复或者相似的图片

2023-12-11 17:28

本文主要是介绍快速删掉文件夹里重复或者相似的图片,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

需求:快速删掉文件夹里重复或者相似的图片

一.软件推荐

1.电脑重复资源查找器

免费,简单好操作,在各种图像格式间比较内容,内置高速比较算法,灵活的扫描源:驱动器、文件夹、文件及类型,结果可复用:能保存 / 载入重复图片列表,支持所有常见图片类型(1,000 种以上)。

2.Duplicate Cleaner

Duplicate Cleaner Pro (官网:Duplicate Cleaner - Remove duplicate files)中文版是一款功能非常强大的重复文件查找工具,这个是无需注册、无需安装的单文件绿色便携版!程序可以帮助你快速的查找重复的图片、音乐等各种文件,可以根据字节、MD5、SHA等多种方式来 快速扫描!它可以同时搜索多个文件夹,支持按文件名称、大小和时间进行搜索。

3.DoubleKiller Pro

DoubleKiller Pro是一款小巧易用的多功能电脑重复文件清理软件,可以帮助你以文件名、大小、创建时间或CRC32校验值等特征快速扫描电脑中的所有重复文件,同时还能够支持搜索不同驱动器的指定类型的重复文件,并进行清除,很好解决电脑使用久了之后导致大量重复文件的堆积,占据电脑的大量内存的问题。

二.Github项目(python)实现

找相似图像:

1.FileManager

该项目支持22项功能如下:

  • 导出文件信息
  • 查找重复文件(基于大小和修改时间的判断方式, 以及基于文件 hash 值的判断方式)
  • 文件还原与备份(增量备份、文件同步、 文件还原)
  • 根据样本或者记录删除文件或者还原文件
  • 一键清空目录下所有空 文件夹
  • 搜索文件或者文件夹(可搜索隐藏文件)
  • 拷贝目录结构(导出到文件、 从文件恢复目录结构、导出目录结构到新目录下)
  • 比对文本文件内容(比对文 章、文档、代码的差异并将结果输出,可批量比对)
  • 计算文件 hash 值
  • 校 对字符串(校对两个字符串是否一致,包含忽略大小写,前后空格,以及忽略所 有空格)
  • 提取视频帧图像(可以批量快速提取指定视频的某一帧或者某一秒 的图像)
  • 查找相似图片(根据算法计算图片的相似度,并将满足相似度阈值 的图片移动到指定目录,可以有效找出不同分辨率、不同大小甚至是经过裁剪或 者加过水印的相似图片)
  • 查找相似视频(比对视频帧图像的相似度找出相似 视频并导出)
  • 以图搜图(选中图片在另一任意目录中搜索与之相似的图片)
  • 以视频搜相似视频(选中视频在另一任意目录中搜索与之相似的视频,主要 用于找出内容一样但是分辨率不同,或者内容一样只是水印有差异的视频)
  • 批量重命名
  • 合并视频(将选中的视频合并为一个视频,可以指定视频帧率)
  • 裁剪视频(集合了之前 video_cut 项目的代码)
  • 批量裁剪视频(选中多个 视频批量裁剪,用于去除视频片头片尾特别好用)
  • 提取音频和转换音频格式 (可以从视频中提取音频,也可以进行音频格式转换,可以指定音频帧率格式, 不一定支持所有音频格式)
  • 找出损坏或者不完整的视频(基于 ffmpeg)
  • 获取时间戳(时间与时间戳之间相互转换)以及修改文件的时间戳 所有的文件删除、文件更新操作进行防呆保护,最大限度保证数据安全!所 有操作都有日志,方便追溯和还原。涉及程序配置内容修改的操作会有权限验证


所有操作均可通过GUI界面进行操作,源码分享实属良心。

2.Imagededup

具体使用方法参考:https://github.com/chinalu/imagedups

安装
python setup.py install
使用方法
仅显示重复的图片:imagedups -p /path/to/image/folder1  
[+]开头的文件是保留的文件;
[-]开头的文件是可以清理的文件。
递归查找文件:imagedups -r -p /path/to/image/folder
查找并删除文件:imagedups -r -d -p /path/to/image/folder
删除文件是不进行确认:imagedups -r -d -N -p /path/to/image/folder
请做好数据备份

3.PicSniffer

主要采用Inception-v3模型对图片进行特征提取

文章首发地址: FUNNY AI

这篇关于快速删掉文件夹里重复或者相似的图片的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/481475

相关文章

nginx 负载均衡配置及如何解决重复登录问题

《nginx负载均衡配置及如何解决重复登录问题》文章详解Nginx源码安装与Docker部署,介绍四层/七层代理区别及负载均衡策略,通过ip_hash解决重复登录问题,对nginx负载均衡配置及如何... 目录一:源码安装:1.配置编译参数2.编译3.编译安装 二,四层代理和七层代理区别1.二者混合使用举例

基于Python实现一个图片拆分工具

《基于Python实现一个图片拆分工具》这篇文章主要为大家详细介绍了如何基于Python实现一个图片拆分工具,可以根据需要的行数和列数进行拆分,感兴趣的小伙伴可以跟随小编一起学习一下... 简单介绍先自己选择输入的图片,默认是输出到项目文件夹中,可以自己选择其他的文件夹,选择需要拆分的行数和列数,可以通过

MySQL中查找重复值的实现

《MySQL中查找重复值的实现》查找重复值是一项常见需求,比如在数据清理、数据分析、数据质量检查等场景下,我们常常需要找出表中某列或多列的重复值,具有一定的参考价值,感兴趣的可以了解一下... 目录技术背景实现步骤方法一:使用GROUP BY和HAVING子句方法二:仅返回重复值方法三:返回完整记录方法四:

XML重复查询一条Sql语句的解决方法

《XML重复查询一条Sql语句的解决方法》文章分析了XML重复查询与日志失效问题,指出因DTO缺少@Data注解导致日志无法格式化、空指针风险及参数穿透,进而引发性能灾难,解决方案为在Controll... 目录一、核心问题:从SQL重复执行到日志失效二、根因剖析:DTO断裂引发的级联故障三、解决方案:修复

Linux如何快速检查服务器的硬件配置和性能指标

《Linux如何快速检查服务器的硬件配置和性能指标》在运维和开发工作中,我们经常需要快速检查Linux服务器的硬件配置和性能指标,本文将以CentOS为例,介绍如何通过命令行快速获取这些关键信息,... 目录引言一、查询CPU核心数编程(几C?)1. 使用 nproc(最简单)2. 使用 lscpu(详细信

利用Python脚本实现批量将图片转换为WebP格式

《利用Python脚本实现批量将图片转换为WebP格式》Python语言的简洁语法和库支持使其成为图像处理的理想选择,本文将介绍如何利用Python实现批量将图片转换为WebP格式的脚本,WebP作为... 目录简介1. python在图像处理中的应用2. WebP格式的原理和优势2.1 WebP格式与传统

SpringBoot+Redis防止接口重复提交问题

《SpringBoot+Redis防止接口重复提交问题》:本文主要介绍SpringBoot+Redis防止接口重复提交问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不... 目录前言实现思路代码示例测试总结前言在项目的使用使用过程中,经常会出现某些操作在短时间内频繁提交。例

基于 HTML5 Canvas 实现图片旋转与下载功能(完整代码展示)

《基于HTML5Canvas实现图片旋转与下载功能(完整代码展示)》本文将深入剖析一段基于HTML5Canvas的代码,该代码实现了图片的旋转(90度和180度)以及旋转后图片的下载... 目录一、引言二、html 结构分析三、css 样式分析四、JavaScript 功能实现一、引言在 Web 开发中,

Python如何去除图片干扰代码示例

《Python如何去除图片干扰代码示例》图片降噪是一个广泛应用于图像处理的技术,可以提高图像质量和相关应用的效果,:本文主要介绍Python如何去除图片干扰的相关资料,文中通过代码介绍的非常详细,... 目录一、噪声去除1. 高斯噪声(像素值正态分布扰动)2. 椒盐噪声(随机黑白像素点)3. 复杂噪声(如伪

Python中图片与PDF识别文本(OCR)的全面指南

《Python中图片与PDF识别文本(OCR)的全面指南》在数据爆炸时代,80%的企业数据以非结构化形式存在,其中PDF和图像是最主要的载体,本文将深入探索Python中OCR技术如何将这些数字纸张转... 目录一、OCR技术核心原理二、python图像识别四大工具库1. Pytesseract - 经典O