python使用DataLoader对数据集进行批处理

2024-02-10 04:58

本文主要是介绍python使用DataLoader对数据集进行批处理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

使用DataLoader对数据集进行批处理,转自

https://www.cnblogs.com/JeasonIsCoding/p/10168753.html

第一步:创建torch能够识别的数据集类型

首先建立两个向量X和Y,一个作为输入的数据,一个作为正确的结果:

import torch
import torch.utils.data as DataBATCH_SIZE = 3 		# 批训练的数据个数x = torch.linspace(1,9,9)  # x data (torch tensor)
y = torch.linspace(9,1,9)  # y data (torch tensor)

随后把X和Y组成一个完整的数据集,并转化为pytorch能识别的数据集类型:

# 先转换成 torch 能够识别的 Dataset
torch_dataset = Data.TensorDataset( x, y )

现在来看一下这些数据的数据类型:

In [1]:  type(torch_dataset)
out[1]:  torch.utils.data.dataset.TensorDatasetIn [2]:  type(x)
out[2]:  torch.Tensor

可以看出X和Y通过Data.TensorDataset() 这个函数拼装成了一个数据集,数据集的类型是TensorDataset

第二步:把上一步的数据集放入Data.DataLoader中,生成一个迭代器,从而方便进行批处理

# 把 dataset 放入 Dataloader
loader = Data.DataLoader(dataset = torch_dataset,# torch TensorDataset formatbatch_size = BATCH_SIZE,#mini batch sizeshuffle = True, # 是否打乱数据num_workers = 2, # 多线程来读数据
)

DataLoader中也有很多其他参数:

dataset:		Dataset类型,从其中加载数据 
batch_size:	int,可选。每个batch加载多少样本 
shuffle:		bool,可选。为True时表示每个epoch都对数据进行洗牌 
sampler:		Sampler,可选。从数据集中采样样本的方法。 
num_workers:	int,可选。加载数据时使用多少子进程。默认值为0,表示在主进程中加载数据。 
collate_fn:	callable,可选。 
pin_memory:	bool,可选 
drop_last:		bool,可选。True表示如果最后剩下不完全的batch,丢弃。False表示不丢弃。

第三步:用上面定义好的迭代器进行训练

这里利用print来模拟训练过程:

for epoch in range(5): 		# 训练所有数据5次i = 0for batch_x,batch_y in loader:i = i+1print('Epoch:{}|num:{}|batch_x:{}|batch_y:{}'.format(epoch,i,batch_x,batch_y))

为了便于观察分批的结果,这里设置:

shuffle = False, # 是否打乱数据

即:

# 把 dataset 放入 Dataloader
loader = Data.DataLoader(dataset = torch_dataset,# torch TensorDataset formatbatch_size = BATCH_SIZE,#mini batch sizeshuffle = False, # 是否打乱数据num_workers = 2, # 多线程来读数据
)

输出结果是:

Epoch:0|num:1|batch_x:tensor([1., 2., 3.])|batch_y:tensor([9., 8., 7.])
Epoch:0|num:2|batch_x:tensor([4., 5., 6.])|batch_y:tensor([6., 5., 4.])
Epoch:0|num:3|batch_x:tensor([7., 8., 9.])|batch_y:tensor([3., 2., 1.])
Epoch:1|num:1|batch_x:tensor([1., 2., 3.])|batch_y:tensor([9., 8., 7.])
Epoch:1|num:2|batch_x:tensor([4., 5., 6.])|batch_y:tensor([6., 5., 4.])
Epoch:1|num:3|batch_x:tensor([7., 8., 9.])|batch_y:tensor([3., 2., 1.])
Epoch:2|num:1|batch_x:tensor([1., 2., 3.])|batch_y:tensor([9., 8., 7.])
Epoch:2|num:2|batch_x:tensor([4., 5., 6.])|batch_y:tensor([6., 5., 4.])
Epoch:2|num:3|batch_x:tensor([7., 8., 9.])|batch_y:tensor([3., 2., 1.])
Epoch:3|num:1|batch_x:tensor([1., 2., 3.])|batch_y:tensor([9., 8., 7.])
Epoch:3|num:2|batch_x:tensor([4., 5., 6.])|batch_y:tensor([6., 5., 4.])
Epoch:3|num:3|batch_x:tensor([7., 8., 9.])|batch_y:tensor([3., 2., 1.])
Epoch:4|num:1|batch_x:tensor([1., 2., 3.])|batch_y:tensor([9., 8., 7.])
Epoch:4|num:2|batch_x:tensor([4., 5., 6.])|batch_y:tensor([6., 5., 4.])
Epoch:4|num:3|batch_x:tensor([7., 8., 9.])|batch_y:tensor([3., 2., 1.])

可以看到,所有数据一共训练了5次。数据中一共9组,设置的mini-batch是3,即每一次训练网络的时候送入3组数据。

此外,还可以利用python中的enumerate(),是对所有可以迭代的数据类型(含有很多东西的list等等)进行取操作的函数,用法如下:

for epoch in range(5): 		# 训练所有数据5次i = 0for step,(batch_x,batch_y) in enumerate(loader):# 假设这里在进行训练i = i+1# 打印一些数据print('Epoch:{}|num:{}|batch_x:{}|batch_y:{}'.format(epoch,i,batch_x,batch_y))

这篇关于python使用DataLoader对数据集进行批处理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/696177

相关文章

Python实战之SEO优化自动化工具开发指南

《Python实战之SEO优化自动化工具开发指南》在数字化营销时代,搜索引擎优化(SEO)已成为网站获取流量的重要手段,本文将带您使用Python开发一套完整的SEO自动化工具,需要的可以了解下... 目录前言项目概述技术栈选择核心模块实现1. 关键词研究模块2. 网站技术seo检测模块3. 内容优化分析模

使用shardingsphere实现mysql数据库分片方式

《使用shardingsphere实现mysql数据库分片方式》本文介绍如何使用ShardingSphere-JDBC在SpringBoot中实现MySQL水平分库,涵盖分片策略、路由算法及零侵入配置... 目录一、ShardingSphere 简介1.1 对比1.2 核心概念1.3 Sharding-Sp

Java 正则表达式的使用实战案例

《Java正则表达式的使用实战案例》本文详细介绍了Java正则表达式的使用方法,涵盖语法细节、核心类方法、高级特性及实战案例,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要... 目录一、正则表达式语法详解1. 基础字符匹配2. 字符类([]定义)3. 量词(控制匹配次数)4. 边

Python Counter 函数使用案例

《PythonCounter函数使用案例》Counter是collections模块中的一个类,专门用于对可迭代对象中的元素进行计数,接下来通过本文给大家介绍PythonCounter函数使用案例... 目录一、Counter函数概述二、基本使用案例(一)列表元素计数(二)字符串字符计数(三)元组计数三、C

Java+AI驱动实现PDF文件数据提取与解析

《Java+AI驱动实现PDF文件数据提取与解析》本文将和大家分享一套基于AI的体检报告智能评估方案,详细介绍从PDF上传、内容提取到AI分析、数据存储的全流程自动化实现方法,感兴趣的可以了解下... 目录一、核心流程:从上传到评估的完整链路二、第一步:解析 PDF,提取体检报告内容1. 引入依赖2. 封装

使用Spring Cache本地缓存示例代码

《使用SpringCache本地缓存示例代码》缓存是提高应用程序性能的重要手段,通过将频繁访问的数据存储在内存中,可以减少数据库访问次数,从而加速数据读取,:本文主要介绍使用SpringCac... 目录一、Spring Cache简介核心特点:二、基础配置1. 添加依赖2. 启用缓存3. 缓存配置方案方案

Python内存优化的实战技巧分享

《Python内存优化的实战技巧分享》Python作为一门解释型语言,虽然在开发效率上有着显著优势,但在执行效率方面往往被诟病,然而,通过合理的内存优化策略,我们可以让Python程序的运行速度提升3... 目录前言python内存管理机制引用计数机制垃圾回收机制内存泄漏的常见原因1. 循环引用2. 全局变

使用Python的requests库来发送HTTP请求的操作指南

《使用Python的requests库来发送HTTP请求的操作指南》使用Python的requests库发送HTTP请求是非常简单和直观的,requests库提供了丰富的API,可以发送各种类型的HT... 目录前言1. 安装 requests 库2. 发送 GET 请求3. 发送 POST 请求4. 发送

python 线程池顺序执行的方法实现

《python线程池顺序执行的方法实现》在Python中,线程池默认是并发执行任务的,但若需要实现任务的顺序执行,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋... 目录方案一:强制单线程(伪顺序执行)方案二:按提交顺序获取结果方案三:任务间依赖控制方案四:队列顺序消

Nginx中配置使用非默认80端口进行服务的完整指南

《Nginx中配置使用非默认80端口进行服务的完整指南》在实际生产环境中,我们经常需要将Nginx配置在其他端口上运行,本文将详细介绍如何在Nginx中配置使用非默认端口进行服务,希望对大家有所帮助... 目录一、为什么需要使用非默认端口二、配置Nginx使用非默认端口的基本方法2.1 修改listen指令