【鼠鼠学AI代码合集#4】简单的数据预处理(pytorch)

2024-08-21 14:28

本文主要是介绍【鼠鼠学AI代码合集#4】简单的数据预处理(pytorch),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

简单的数据预处理(pytorch)

读取数据集

创建一个简单的CSV文件,并使用Python中的Pandas库加载并读取这个文件的数据

  1. 创建CSV文件并写入数据

    import osos.makedirs(os.path.join('..', 'data'), exist_ok=True)  # 创建文件夹路径
    data_file = os.path.join('..', 'data', 'house_tiny.csv')  # 指定CSV文件的路径
    with open(data_file, 'w') as f:  # 打开文件进行写操作f.write('NumRooms,Alley,Price\n')  # 写入列名f.write('NA,Pave,127500\n')  # 写入数据行f.write('2,NA,106000\n')f.write('4,NA,178100\n')f.write('NA,NA,140000\n')
    
    • 这段代码首先创建了一个新的目录(如果不存在的话),然后在该目录下创建了一个名为house_tiny.csv的文件。
    • 文件内容包括三列:NumRooms(房间数),Alley(巷子类型),和Price(房价)。共写入了4行数据。
  2. 读取CSV文件

    import pandas as pddata = pd.read_csv(data_file)  # 使用Pandas读取CSV文件
    print(data)  # 打印读取的数据
    
    • pandas 是一个强大的数据分析库,read_csv 是其提供的用于读取CSV文件的函数。
    • 读取后的数据以DataFrame的形式存储并打印出来。
  3. 输出结果

    • 读取数据后,你会得到如下表格形式的输出:
        NumRooms Alley   Price
      0       NaN  Pave  127500
      1       2.0   NaN  106000
      2       4.0   NaN  178100
      3       NaN   NaN  140000
      
    • 其中,NaN 表示缺失值。

这个例子展示了如何创建一个简单的数据集,保存为CSV文件并使用Pandas读取它。这样的技术在数据科学和机器学习领域非常常见,用于准备和探索数据。

处理缺失值

处理数据中的缺失值,并将类别数据转换为适合模型训练的形式。

# 分割数据为输入和输出部分
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]  # inputs包含前两列,outputs包含最后一列# 处理数值列中的缺失值,用该列的均值填充
numeric_inputs = inputs.select_dtypes(include=['float64', 'int64'])  # 选择数值列
numeric_inputs = numeric_inputs.fillna(numeric_inputs.mean())  # 使用均值填充数值列中的NaN值# 处理类别数据的缺失值并进行独热编码
categorical_inputs = inputs.select_dtypes(exclude=['float64', 'int64'])  # 选择非数值列
categorical_inputs = pd.get_dummies(categorical_inputs, dummy_na=True)  # 使用独热编码处理类别列,并将NaN视为一个类别# 将数值列和处理后的类别列合并
inputs = pd.concat([numeric_inputs, categorical_inputs], axis=1)
print("\nProcessed Inputs:\n", inputs)  # 打印处理后的输入数据

转化为张量

经过处理的inputsoutputs数据转换为PyTorch张量,以便在后续的操作中使用PyTorch的张量操作。

  1. 转换数据为NumPy数组

    • inputs.to_numpy(dtype=float)outputs.to_numpy(dtype=float) 将Pandas DataFrame中的数据转换为NumPy数组,同时确保数据类型为float
  2. 将NumPy数组转换为PyTorch张量

    • torch.tensor(inputs.to_numpy(dtype=float))torch.tensor(outputs.to_numpy(dtype=float)) 将NumPy数组转换为PyTorch的张量(tensor),从而使这些数据可以被PyTorch进一步操作。

以下是完整的代码:

import torch# 将inputs和outputs数据转换为NumPy数组,并转换为PyTorch张量
X = torch.tensor(inputs.to_numpy(dtype=float))
y = torch.tensor(outputs.to_numpy(dtype=float))# 打印输出张量
print(X)
print(y)

输出结果

tensor([[3., 1., 0.],[2., 0., 1.],[4., 0., 1.],[3., 0., 1.]], dtype=torch.float64)tensor([127500., 106000., 178100., 140000.], dtype=torch.float64)

解释

  • X 是输入数据转换后的张量,包含房间数(NumRooms)、巷子类型Alley_PaveAlley_nan的one-hot编码结果。
  • y 是输出数据转换后的张量,包含房价Price

完整代码

import os
import pandas as pd# 创建文件夹并写入CSV文件
os.makedirs(os.path.join('..', 'data'), exist_ok=True)  # 创建保存数据的目录
data_file = os.path.join('..', 'data', 'house_tiny.csv')  # 指定CSV文件的路径
with open(data_file, 'w') as f:  # 打开文件进行写操作f.write('NumRooms,Alley,Price\n')  # 写入列名f.write('NA,Pave,127500\n')  # 写入数据行1f.write('2,NA,106000\n')  # 写入数据行2f.write('4,NA,178100\n')  # 写入数据行3f.write('NA,NA,140000\n')  # 写入数据行4# 读取CSV文件
data = pd.read_csv(data_file)  # 使用Pandas读取CSV文件
print("Original Data:\n", data)  # 打印原始数据# 分割数据为输入和输出部分
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
# inputs包含前两列,outputs包含最后一列# 处理数值列中的缺失值,用该列的均值填充
numeric_inputs = inputs.select_dtypes(include=['float64', 'int64'])
# 选择数值列
numeric_inputs = numeric_inputs.fillna(numeric_inputs.mean())
# 使用均值填充数值列中的NaN值# 处理类别数据的缺失值并进行独热编码
categorical_inputs = inputs.select_dtypes(exclude=['float64', 'int64'])
# 选择非数值列
categorical_inputs = pd.get_dummies(categorical_inputs, dummy_na=True)
# 使用独热编码处理类别列,并将NaN视为一个类别# 将数值列和处理后的类别列合并
inputs = pd.concat([numeric_inputs, categorical_inputs], axis=1)
print("\nProcessed Inputs:\n", inputs)  # 打印处理后的输入数据import torch# 将inputs和outputs数据转换为NumPy数组,并转换为PyTorch张量
X = torch.tensor(inputs.to_numpy(dtype=float))
y = torch.tensor(outputs.to_numpy(dtype=float))# 打印输出张量
print(X)
print(y)

这篇关于【鼠鼠学AI代码合集#4】简单的数据预处理(pytorch)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1093412

相关文章

Linux下利用select实现串口数据读取过程

《Linux下利用select实现串口数据读取过程》文章介绍Linux中使用select、poll或epoll实现串口数据读取,通过I/O多路复用机制在数据到达时触发读取,避免持续轮询,示例代码展示设... 目录示例代码(使用select实现)代码解释总结在 linux 系统里,我们可以借助 select、

Java集合之Iterator迭代器实现代码解析

《Java集合之Iterator迭代器实现代码解析》迭代器Iterator是Java集合框架中的一个核心接口,位于java.util包下,它定义了一种标准的元素访问机制,为各种集合类型提供了一种统一的... 目录一、什么是Iterator二、Iterator的核心方法三、基本使用示例四、Iterator的工

Java 线程池+分布式实现代码

《Java线程池+分布式实现代码》在Java开发中,池通过预先创建并管理一定数量的资源,避免频繁创建和销毁资源带来的性能开销,从而提高系统效率,:本文主要介绍Java线程池+分布式实现代码,需要... 目录1. 线程池1.1 自定义线程池实现1.1.1 线程池核心1.1.2 代码示例1.2 总结流程2. J

JS纯前端实现浏览器语音播报、朗读功能的完整代码

《JS纯前端实现浏览器语音播报、朗读功能的完整代码》在现代互联网的发展中,语音技术正逐渐成为改变用户体验的重要一环,下面:本文主要介绍JS纯前端实现浏览器语音播报、朗读功能的相关资料,文中通过代码... 目录一、朗读单条文本:① 语音自选参数,按钮控制语音:② 效果图:二、朗读多条文本:① 语音有默认值:②

Vue实现路由守卫的示例代码

《Vue实现路由守卫的示例代码》Vue路由守卫是控制页面导航的钩子函数,主要用于鉴权、数据预加载等场景,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着... 目录一、概念二、类型三、实战一、概念路由守卫(Navigation Guards)本质上就是 在路

uni-app小程序项目中实现前端图片压缩实现方式(附详细代码)

《uni-app小程序项目中实现前端图片压缩实现方式(附详细代码)》在uni-app开发中,文件上传和图片处理是很常见的需求,但也经常会遇到各种问题,下面:本文主要介绍uni-app小程序项目中实... 目录方式一:使用<canvas>实现图片压缩(推荐,兼容性好)示例代码(小程序平台):方式二:使用uni

JAVA实现Token自动续期机制的示例代码

《JAVA实现Token自动续期机制的示例代码》本文主要介绍了JAVA实现Token自动续期机制的示例代码,通过动态调整会话生命周期平衡安全性与用户体验,解决固定有效期Token带来的风险与不便,感兴... 目录1. 固定有效期Token的内在局限性2. 自动续期机制:兼顾安全与体验的解决方案3. 总结PS

C#中通过Response.Headers设置自定义参数的代码示例

《C#中通过Response.Headers设置自定义参数的代码示例》:本文主要介绍C#中通过Response.Headers设置自定义响应头的方法,涵盖基础添加、安全校验、生产实践及调试技巧,强... 目录一、基础设置方法1. 直接添加自定义头2. 批量设置模式二、高级配置技巧1. 安全校验机制2. 类型

Python屏幕抓取和录制的详细代码示例

《Python屏幕抓取和录制的详细代码示例》随着现代计算机性能的提高和网络速度的加快,越来越多的用户需要对他们的屏幕进行录制,:本文主要介绍Python屏幕抓取和录制的相关资料,需要的朋友可以参考... 目录一、常用 python 屏幕抓取库二、pyautogui 截屏示例三、mss 高性能截图四、Pill

使用MapStruct实现Java对象映射的示例代码

《使用MapStruct实现Java对象映射的示例代码》本文主要介绍了使用MapStruct实现Java对象映射的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,... 目录一、什么是 MapStruct?二、实战演练:三步集成 MapStruct第一步:添加 Mave