python 解决data imbalance问题(以casia-webface为例)

2023-10-06 22:20

本文主要是介绍python 解决data imbalance问题(以casia-webface为例),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Method for Data Imbalance

对于分部不均的数据集使用,从而避免long tail distribution。例如CASIA-WebFace
Alt

import os
import randomdef list_of_groups(init_list, children_list_len):""":param init_list: (list) 放想要分割的list:param children_list_len: (list)  想要分割成几份:return:"""list_of_groups = zip (*(iter (init_list),) * children_list_len)end_list = [list (i) for i in list_of_groups]count = len (init_list) % children_list_lenend_list.append (init_list[-count:]) if count != 0 else end_listreturn end_listdef dataset_split(dataset_path, batch_size, select_num):""":param dataset_path: (str)存放子文件夹的目录:param batch_size: (int)同训练时的batch size:param select_num: (int)每个文件夹选择的图片个数:return: (list)整个数据集处理后的文件路径,list中还有list"""img_name = []  # 文件夹名img_num = []  # 文件夹所含图片个数train_path_list = []for folders in os.listdir (dataset_path):img_name.append (folders)img_folder = os.path.join (dataset_path, folders)img_num.append (len (os.listdir (img_folder)))img_name_sep = list_of_groups (img_name, int (batch_size / select_num))for combined_img_folders in img_name_sep:for single_img_folder in combined_img_folders:img_folder_path = os.path.join (dataset_path, single_img_folder)img_folder_imgs = os.listdir (img_folder_path)if len (img_folder_imgs) > select_num:select_img = random.sample (img_folder_imgs, select_num)path = [img_folder_path + '/' + i for i in select_img]train_path_list.append (path)else:print ('Folder {} failed to fetch'.format (single_img_folder))return (train_path_list)if __name__ == '__main__':casia_folder = r'E:/FaceNet-pytorch/facenet-pytorch--main/datasets/'train_path = dataset_split (dataset_path=casia_folder,batch_size=32,select_num=8)print(train_path[0])

在这里插入图片描述

这篇关于python 解决data imbalance问题(以casia-webface为例)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/154248

相关文章

JAVA Calendar设置上个月时,日期不存在或错误提示问题及解决

《JAVACalendar设置上个月时,日期不存在或错误提示问题及解决》在使用Java的Calendar类设置上个月的日期时,如果遇到不存在的日期(如4月31日),默认会自动调整到下个月的相应日期(... 目录Java Calendar设置上个月时,日期不存在或错误提示java进行日期计算时如果出现不存在的

Mybatis对MySQL if 函数的不支持问题解读

《Mybatis对MySQLif函数的不支持问题解读》接手项目后,为了实现多租户功能,引入了Mybatis-plus,发现之前运行正常的SQL语句报错,原因是Mybatis不支持MySQL的if函... 目录MyBATis对mysql if 函数的不支持问题描述经过查询网上搜索资料找到原因解决方案总结Myb

浅析python如何去掉字符串中最后一个字符

《浅析python如何去掉字符串中最后一个字符》在Python中,字符串是不可变对象,因此无法直接修改原字符串,但可以通过生成新字符串的方式去掉最后一个字符,本文整理了三种高效方法,希望对大家有所帮助... 目录方法1:切片操作(最推荐)方法2:长度计算索引方法3:拼接剩余字符(不推荐,仅作演示)关键注意事

Nginx错误拦截转发 error_page的问题解决

《Nginx错误拦截转发error_page的问题解决》Nginx通过配置错误页面和请求处理机制,可以在请求失败时展示自定义错误页面,提升用户体验,下面就来介绍一下Nginx错误拦截转发error_... 目录1. 准备自定义错误页面2. 配置 Nginx 错误页面基础配置示例:3. 关键配置说明4. 生效

python版本切换工具pyenv的安装及用法

《python版本切换工具pyenv的安装及用法》Pyenv是管理Python版本的最佳工具之一,特别适合开发者和需要切换多个Python版本的用户,:本文主要介绍python版本切换工具pyen... 目录Pyenv 是什么?安装 Pyenv(MACOS)使用 Homebrew:配置 shell(zsh

Python自动化提取多个Word文档的文本

《Python自动化提取多个Word文档的文本》在日常工作和学习中,我们经常需要处理大量的Word文档,本文将深入探讨如何利用Python批量提取Word文档中的文本内容,帮助你解放生产力,感兴趣的小... 目录为什么需要批量提取Word文档文本批量提取Word文本的核心技术与工具安装 Spire.Doc

Java调用DeepSeek API的8个高频坑与解决方法

《Java调用DeepSeekAPI的8个高频坑与解决方法》现在大模型开发特别火,DeepSeek因为中文理解好、反应快、还便宜,不少Java开发者都用它,本文整理了最常踩的8个坑,希望对... 目录引言一、坑 1:Token 过期未处理,鉴权异常引发服务中断问题本质典型错误代码解决方案:实现 Token

springboot3.x使用@NacosValue无法获取配置信息的解决过程

《springboot3.x使用@NacosValue无法获取配置信息的解决过程》在SpringBoot3.x中升级Nacos依赖后,使用@NacosValue无法动态获取配置,通过引入SpringC... 目录一、python问题描述二、解决方案总结一、问题描述springboot从2android.x

Python中Request的安装以及简单的使用方法图文教程

《Python中Request的安装以及简单的使用方法图文教程》python里的request库经常被用于进行网络爬虫,想要学习网络爬虫的同学必须得安装request这个第三方库,:本文主要介绍P... 目录1.Requests 安装cmd 窗口安装为pycharm安装在pycharm设置中为项目安装req

Python容器转换与共有函数举例详解

《Python容器转换与共有函数举例详解》Python容器是Python编程语言中非常基础且重要的概念,它们提供了数据的存储和组织方式,下面:本文主要介绍Python容器转换与共有函数的相关资料,... 目录python容器转换与共有函数详解一、容器类型概览二、容器类型转换1. 基本容器转换2. 高级转换示