【机器学习】MNIST数据集上的python读取和使用操作

2023-12-13 16:18

本文主要是介绍【机器学习】MNIST数据集上的python读取和使用操作,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

MNIST手写字符数据集由LeCun大神提出。该数据集在机器学习中就相当于程序中的“Hello World”的存在。由于这个数据集可以很好测试我们的一些分类算法,本博客将对该数据集的读取操作等进行解释

MNIST官网: http://yann.lecun.com/exdb/mnist/

MNIST数据集主要由下面四个ubyte文件组成:
这里写图片描述
其中train_images_idx3_ubyte.gz和train_labels_idx1_ubyte.gz 两个文件分别为训练集及其标签,含60k张训练图像和标签。
t10k-images_idx3_ubyte.gz和t10_labels_idx1_ubyte.gz则分别表示为测试集图像,含10k张测试图像和标签

读取操作

先来看下idx3_ubyte文件和idx1_ubyte文件的构成:

idx3_ubyte(以训练集为例)
这里写图片描述
可以看到该文件前4个字节为magic number, number of image, number of rows, number of columns
因此在读取图片时,注意将其跳过。读取时,我们对一个图像一个图像进行,所以要设定一个偏移量offset

代码如下:

def decode_idx3_ubyte(idx3_ubyte_file, saveFlag, status):'''idx3_ubyte_file: source filesaveFlag: bool var (save image or not)status: Train or test (like 'test/') '''with open(idx3_ubyte_file, 'rb') as f:buf = f.read()offset = 0magic, imageNum, rows, cols = struct.unpack_from('>IIII', buf, offset)offset += struct.calcsize('>IIII')images = np.empty((imageNum,rows, cols))image_size = rows * colsfmt = '>' + str(image_size) + 'B'for i in range(imageNum):images[i] = np.array(struct.unpack_from(fmt, buf, offset)).reshape((rows,cols))if saveFlag == True:#保存图像im = Image.fromarray(np.uint8(images[i]))im.save(status + str(i) + '.png')offset += struct.calcsize(fmt)return images

idx1_ubyte(以训练集为例)
其组成结构:
这里写图片描述

同样,文件头含magic numbe 和 number of items两个综述性标志,读取时记得跳过:

def decode_idx1_ubyte(idx1_ubyte_file):# idx3_ubyte_file: source filewith open(idx1_ubyte_file, 'rb') as f:buf = f.read()offset = 0magic, LabelNum = struct.unpack_from('>II', buf, offset)offset += struct.calcsize('>II')Labels = np.zeros((LabelNum))for i in range(LabelNum):Labels[i] = np.array(struct.unpack_from('>B', buf, offset))offset += struct.calcsize('>B')return Labels

由于我们对数据集进行处理时候,经常要对图片进行向量化操作,这里顺便也把代码贴上来:

def MNIST2vector(idx3_ubyte_file):Im = decode_idx3_ubyte(idx3_ubyte_file, None, None)length,row,col = Im.shapereturn Im.reshape((length, row*col))

这样MNIST文件就转成了我们熟悉的格式,便很容易进行对我们的分类算法进行验证。

本文主要参考了http://www.jianshu.com/p/84f72791806f

这篇关于【机器学习】MNIST数据集上的python读取和使用操作的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/489107

相关文章

Swagger2与Springdoc集成与使用详解

《Swagger2与Springdoc集成与使用详解》:本文主要介绍Swagger2与Springdoc集成与使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录1. 依赖配置2. 基础配置2.1 启用 Springdoc2.2 自定义 OpenAPI 信息3.

python进行while遍历的常见错误解析

《python进行while遍历的常见错误解析》在Python中选择合适的遍历方式需要综合考虑可读性、性能和具体需求,本文就来和大家讲解一下python中while遍历常见错误以及所有遍历方法的优缺点... 目录一、超出数组范围问题分析错误复现解决方法关键区别二、continue使用问题分析正确写法关键点三

Golang interface{}的具体使用

《Golanginterface{}的具体使用》interface{}是Go中可以表示任意类型的空接口,本文主要介绍了Golanginterface{}的具体使用,具有一定的参考价值,感兴趣的可以了... 目录一、什么是 interface{}?定义形China编程式:二、interface{} 有什么特别的?✅

使用Python实现调用API获取图片存储到本地的方法

《使用Python实现调用API获取图片存储到本地的方法》开发一个自动化工具,用于从JSON数据源中提取图像ID,通过调用指定API获取未经压缩的原始图像文件,并确保下载结果与Postman等工具直接... 目录使用python实现调用API获取图片存储到本地1、项目概述2、核心功能3、环境准备4、代码实现

windows和Linux安装Jmeter与简单使用方式

《windows和Linux安装Jmeter与简单使用方式》:本文主要介绍windows和Linux安装Jmeter与简单使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地... 目录Windows和linux安装Jmeter与简单使用一、下载安装包二、JDK安装1.windows设

Spring 缓存在项目中的使用详解

《Spring缓存在项目中的使用详解》Spring缓存机制,Cache接口为缓存的组件规范定义,包扩缓存的各种操作(添加缓存、删除缓存、修改缓存等),本文给大家介绍Spring缓存在项目中的使用... 目录1.Spring 缓存机制介绍2.Spring 缓存用到的概念Ⅰ.两个接口Ⅱ.三个注解(方法层次)Ⅲ.

8种快速易用的Python Matplotlib数据可视化方法汇总(附源码)

《8种快速易用的PythonMatplotlib数据可视化方法汇总(附源码)》你是否曾经面对一堆复杂的数据,却不知道如何让它们变得直观易懂?别慌,Python的Matplotlib库是你数据可视化的... 目录引言1. 折线图(Line Plot)——趋势分析2. 柱状图(Bar Chart)——对比分析3

Spring Boot 整合 Redis 实现数据缓存案例详解

《SpringBoot整合Redis实现数据缓存案例详解》Springboot缓存,默认使用的是ConcurrentMap的方式来实现的,然而我们在项目中并不会这么使用,本文介绍SpringB... 目录1.添加 Maven 依赖2.配置Redis属性3.创建 redisCacheManager4.使用Sp

PyTorch中cdist和sum函数使用示例详解

《PyTorch中cdist和sum函数使用示例详解》torch.cdist是PyTorch中用于计算**两个张量之间的成对距离(pairwisedistance)**的函数,常用于点云处理、图神经网... 目录基本语法输出示例1. 简单的 2D 欧几里得距离2. 批量形式(3D Tensor)3. 使用不

Python模拟串口通信的示例详解

《Python模拟串口通信的示例详解》pySerial是Python中用于操作串口的第三方模块,它支持Windows、Linux、OSX、BSD等多个平台,下面我们就来看看Python如何使用pySe... 目录1.win 下载虚www.chinasem.cn拟串口2、确定串口号3、配置串口4、串口通信示例5