自己造轮子:深度学习dataloader自己实现

2024-06-13 10:08

本文主要是介绍自己造轮子:深度学习dataloader自己实现,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

自己造轮子:深度学习dataloader自己实现

**摘要:**因为计算机性能的限制,所有的深度学习框架都是采用批量随机梯度下降,所以每次计算都要读取batch_size的数据。这里以自己实现的方式介绍深度学习框架实现批量读取数据的原理,不涉及具体细节和一些逻辑,只注重大体流程和原理。

总体流程:

  • 采用yield写一个生成器函数实现批量图片/标注信息的读取
  • 采用multiprocessing/threading加速文件读取
  • 时间对比

深度学习大体流程

for i in range(epoch):data, lable = dataloader.next(batch_size=16)         # 读取batch_size的数据output = model(data)            # 前向传播loss = crition(output, label)   # 求损失函数loss.backward()                 # 反向传播

在dataloader的时候,一般会采用多个进程(num_workers
)加快文件I/O的速度,避免网络反向传播过了,还没有数据。

1. 用yield写一个生成器函数

# coding:utf-8
# 自己造轮子,实现深度学习批量数据的读取
import os
import glob
import numpy as np 
import cv2  def get_images(path):files = []for ext in ['jpg', 'png', 'jpeg', 'JPG']:files.extend(glob.glob(os.path.join(path, '*.{}'.format(ext))))return filesdef dataset(batch_size=2, path='/media/chenjun/data/1_deeplearning/7_ammeter_data/test'):"""写一个读取图片的生成器batch_size:批量大小path:图片路径"""# 1. 读取所有图片名字image_list = get_images(path)index = np.arange(0, len(image_list))while True:np.random.shuffle(index)images = []image_names = []for i in index:try:im_name = image_list[i]im = cv2.imread(im_name)    # 读取图片# 读取相应图片的标注信息# text_polys = fun1()images.append(im[:,:, ::-1].astype(np.float32))     # cv2读取图片的顺序为BGR,转换成RGB格式image_names.append(im_name)if len(images) == batch_size:yield images, image_names        # 采用函数生成器,生成一个可迭代对象images = []image_names = []except Exception as e:import tracebacktraceback.print_exc()continue                # 所有图片已经读完一遍,跳出for循环,再打乱图片的顺序进行第二次读取

2. 使用muitlprocessing加速文件读取速度

<!-- 采用正常模式进行图片读取,读取100个batch -->
import time
mydataset = dataset()
start = time.time()
for _ in range(100):im, im_name = next(mydataset)
#     print(im_name)
print('use time:{}'.format(time.time() - start))
>>>  use time:0.16786599159240723<!-- 采用muitlprocessing模式进行图片读取,读取100个batch -->
import multiprocessing
def data_generator(data, q):for _ in range(100):                # 循环多少次generator_output = next(data)q.put(generator_output)q = multiprocessing.Queue()
start2 = time.time()
thread = multiprocessing.Process(target=data_generator, args=(dataset(), q))
thread.start()              # 多进程开始读取图片
print('mulprocess time is:{}'.format(time.time() - start2))
>>>  mulprocess time is:0.002292633056640625

可以看到读取100个batch,时间提高了80倍。
同时,一般的深度学习框架都会使用几个多进程处理上面的功能。
eg:

for _ in range(workers):if self._use_multiprocessing:# Reset random seed else all children processes# share the same seednp.random.seed(self.random_seed)thread = multiprocessing.Process(target=data_generator_task)

网上的资料显示threading的效率没有muitlprocessing高,这里就不测试了。

reference

[1] 莫烦python
[2] argman/EAST

这篇关于自己造轮子:深度学习dataloader自己实现的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1057003

相关文章

python设置环境变量路径实现过程

《python设置环境变量路径实现过程》本文介绍设置Python路径的多种方法:临时设置(Windows用`set`,Linux/macOS用`export`)、永久设置(系统属性或shell配置文件... 目录设置python路径的方法临时设置环境变量(适用于当前会话)永久设置环境变量(Windows系统

深度解析Nginx日志分析与499状态码问题解决

《深度解析Nginx日志分析与499状态码问题解决》在Web服务器运维和性能优化过程中,Nginx日志是排查问题的重要依据,本文将围绕Nginx日志分析、499状态码的成因、排查方法及解决方案展开讨论... 目录前言1. Nginx日志基础1.1 Nginx日志存放位置1.2 Nginx日志格式2. 499

Python对接支付宝支付之使用AliPay实现的详细操作指南

《Python对接支付宝支付之使用AliPay实现的详细操作指南》支付宝没有提供PythonSDK,但是强大的github就有提供python-alipay-sdk,封装里很多复杂操作,使用这个我们就... 目录一、引言二、准备工作2.1 支付宝开放平台入驻与应用创建2.2 密钥生成与配置2.3 安装ali

Spring Security 单点登录与自动登录机制的实现原理

《SpringSecurity单点登录与自动登录机制的实现原理》本文探讨SpringSecurity实现单点登录(SSO)与自动登录机制,涵盖JWT跨系统认证、RememberMe持久化Token... 目录一、核心概念解析1.1 单点登录(SSO)1.2 自动登录(Remember Me)二、代码分析三、

PyCharm中配置PyQt的实现步骤

《PyCharm中配置PyQt的实现步骤》PyCharm是JetBrains推出的一款强大的PythonIDE,结合PyQt可以进行pythion高效开发桌面GUI应用程序,本文就来介绍一下PyCha... 目录1. 安装China编程PyQt1.PyQt 核心组件2. 基础 PyQt 应用程序结构3. 使用 Q

Python实现批量提取BLF文件时间戳

《Python实现批量提取BLF文件时间戳》BLF(BinaryLoggingFormat)作为Vector公司推出的CAN总线数据记录格式,被广泛用于存储车辆通信数据,本文将使用Python轻松提取... 目录一、为什么需要批量处理 BLF 文件二、核心代码解析:从文件遍历到数据导出1. 环境准备与依赖库

linux下shell脚本启动jar包实现过程

《linux下shell脚本启动jar包实现过程》确保APP_NAME和LOG_FILE位于目录内,首次启动前需手动创建log文件夹,否则报错,此为个人经验,供参考,欢迎支持脚本之家... 目录linux下shell脚本启动jar包样例1样例2总结linux下shell脚本启动jar包样例1#!/bin

go动态限制并发数量的实现示例

《go动态限制并发数量的实现示例》本文主要介绍了Go并发控制方法,通过带缓冲通道和第三方库实现并发数量限制,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 目录带有缓冲大小的通道使用第三方库其他控制并发的方法因为go从语言层面支持并发,所以面试百分百会问到

Go语言并发之通知退出机制的实现

《Go语言并发之通知退出机制的实现》本文主要介绍了Go语言并发之通知退出机制的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录1、通知退出机制1.1 进程/main函数退出1.2 通过channel退出1.3 通过cont

Python实现PDF按页分割的技术指南

《Python实现PDF按页分割的技术指南》PDF文件处理是日常工作中的常见需求,特别是当我们需要将大型PDF文档拆分为多个部分时,下面我们就来看看如何使用Python创建一个灵活的PDF分割工具吧... 目录需求分析技术方案工具选择安装依赖完整代码实现使用说明基本用法示例命令输出示例技术亮点实际应用场景扩