pytorch sampler对数据进行采样

本文主要是介绍pytorch sampler对数据进行采样，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

PyTorch中还单独提供了一个sampler模块，用来对数据进行采样。常用的有随机采样器：RandomSampler，当dataloader的shuffle参数为True时，系统会自动调用这个采样器，实现打乱数据。默认的是采用SequentialSampler，它会按顺序一个一个进行采样。这里介绍另外一个很有用的采样方法： WeightedRandomSampler，它会根据每个样本的权重选取数据，在样本比例不均衡的问题中，可用它来进行重采样。

构建WeightedRandomSampler时需提供两个参数：每个样本的权重weights、共选取的样本总数num_samples，以及一个可选参数replacement。权重越大的样本被选中的概率越大，待选取的样本数目一般小于全部的样本数目。replacement用于指定是否可以重复选取某一个样本，默认为True，即允许在一个epoch中重复采样某一个数据。如果设为False，则当某一类的样本被全部选取完，但其样本数目仍未达到num_samples时，sampler将不会再从该类中选择数据，此时可能导致weights参数失效。下面举例说明。

from dataSet import *
dataset = DogCat('data/dogcat/', transform=transform)from torch.utils.data import DataLoader
# 狗的图片被取出的概率是猫的概率的两倍
# 两类图片被取出的概率与weights的绝对大小无关，只和比值有关
weights = [2 if label == 1 else 1 for data, label in dataset]print(weights)from torch.utils.data.sampler import  WeightedRandomSampler
sampler = WeightedRandomSampler(weights,\num_samples=9,\replacement=True)
dataloader = DataLoader(dataset,batch_size=3,sampler=sampler)
for datas, labels in dataloader:print(labels.tolist())

输出：

[2, 2, 1, 1, 2, 1, 1, 2]
[1, 1, 0]
[1, 0, 0]
[0, 0, 1]

github 地址：
https://github.com/WebLearning17/CommonTool

这篇关于pytorch sampler对数据进行采样的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

pytorch sampler对数据进行采样

相关文章

Linux下利用select实现串口数据读取过程

C#使用iText获取PDF的trailer数据的代码示例

Pandas处理缺失数据的方式汇总

C++中处理文本数据char与string的终极对比指南

Python进行word模板内容替换的实现示例

python库pydantic数据验证和设置管理库的用途

Git进行版本控制的实战指南

JAVA实现亿级千万级数据顺序导出的示例代码

SpringBoot分段处理List集合多线程批量插入数据方式

PHP轻松处理千万行数据的方法详解