【鼠鼠学AI代码合集#4】简单的数据预处理(pytorch)

2024-08-21 14:28

本文主要是介绍【鼠鼠学AI代码合集#4】简单的数据预处理(pytorch),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

简单的数据预处理(pytorch)

读取数据集

创建一个简单的CSV文件,并使用Python中的Pandas库加载并读取这个文件的数据

  1. 创建CSV文件并写入数据

    import osos.makedirs(os.path.join('..', 'data'), exist_ok=True)  # 创建文件夹路径
    data_file = os.path.join('..', 'data', 'house_tiny.csv')  # 指定CSV文件的路径
    with open(data_file, 'w') as f:  # 打开文件进行写操作f.write('NumRooms,Alley,Price\n')  # 写入列名f.write('NA,Pave,127500\n')  # 写入数据行f.write('2,NA,106000\n')f.write('4,NA,178100\n')f.write('NA,NA,140000\n')
    
    • 这段代码首先创建了一个新的目录(如果不存在的话),然后在该目录下创建了一个名为house_tiny.csv的文件。
    • 文件内容包括三列:NumRooms(房间数),Alley(巷子类型),和Price(房价)。共写入了4行数据。
  2. 读取CSV文件

    import pandas as pddata = pd.read_csv(data_file)  # 使用Pandas读取CSV文件
    print(data)  # 打印读取的数据
    
    • pandas 是一个强大的数据分析库,read_csv 是其提供的用于读取CSV文件的函数。
    • 读取后的数据以DataFrame的形式存储并打印出来。
  3. 输出结果

    • 读取数据后,你会得到如下表格形式的输出:
        NumRooms Alley   Price
      0       NaN  Pave  127500
      1       2.0   NaN  106000
      2       4.0   NaN  178100
      3       NaN   NaN  140000
      
    • 其中,NaN 表示缺失值。

这个例子展示了如何创建一个简单的数据集,保存为CSV文件并使用Pandas读取它。这样的技术在数据科学和机器学习领域非常常见,用于准备和探索数据。

处理缺失值

处理数据中的缺失值,并将类别数据转换为适合模型训练的形式。

# 分割数据为输入和输出部分
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]  # inputs包含前两列,outputs包含最后一列# 处理数值列中的缺失值,用该列的均值填充
numeric_inputs = inputs.select_dtypes(include=['float64', 'int64'])  # 选择数值列
numeric_inputs = numeric_inputs.fillna(numeric_inputs.mean())  # 使用均值填充数值列中的NaN值# 处理类别数据的缺失值并进行独热编码
categorical_inputs = inputs.select_dtypes(exclude=['float64', 'int64'])  # 选择非数值列
categorical_inputs = pd.get_dummies(categorical_inputs, dummy_na=True)  # 使用独热编码处理类别列,并将NaN视为一个类别# 将数值列和处理后的类别列合并
inputs = pd.concat([numeric_inputs, categorical_inputs], axis=1)
print("\nProcessed Inputs:\n", inputs)  # 打印处理后的输入数据

转化为张量

经过处理的inputsoutputs数据转换为PyTorch张量,以便在后续的操作中使用PyTorch的张量操作。

  1. 转换数据为NumPy数组

    • inputs.to_numpy(dtype=float)outputs.to_numpy(dtype=float) 将Pandas DataFrame中的数据转换为NumPy数组,同时确保数据类型为float
  2. 将NumPy数组转换为PyTorch张量

    • torch.tensor(inputs.to_numpy(dtype=float))torch.tensor(outputs.to_numpy(dtype=float)) 将NumPy数组转换为PyTorch的张量(tensor),从而使这些数据可以被PyTorch进一步操作。

以下是完整的代码:

import torch# 将inputs和outputs数据转换为NumPy数组,并转换为PyTorch张量
X = torch.tensor(inputs.to_numpy(dtype=float))
y = torch.tensor(outputs.to_numpy(dtype=float))# 打印输出张量
print(X)
print(y)

输出结果

tensor([[3., 1., 0.],[2., 0., 1.],[4., 0., 1.],[3., 0., 1.]], dtype=torch.float64)tensor([127500., 106000., 178100., 140000.], dtype=torch.float64)

解释

  • X 是输入数据转换后的张量,包含房间数(NumRooms)、巷子类型Alley_PaveAlley_nan的one-hot编码结果。
  • y 是输出数据转换后的张量,包含房价Price

完整代码

import os
import pandas as pd# 创建文件夹并写入CSV文件
os.makedirs(os.path.join('..', 'data'), exist_ok=True)  # 创建保存数据的目录
data_file = os.path.join('..', 'data', 'house_tiny.csv')  # 指定CSV文件的路径
with open(data_file, 'w') as f:  # 打开文件进行写操作f.write('NumRooms,Alley,Price\n')  # 写入列名f.write('NA,Pave,127500\n')  # 写入数据行1f.write('2,NA,106000\n')  # 写入数据行2f.write('4,NA,178100\n')  # 写入数据行3f.write('NA,NA,140000\n')  # 写入数据行4# 读取CSV文件
data = pd.read_csv(data_file)  # 使用Pandas读取CSV文件
print("Original Data:\n", data)  # 打印原始数据# 分割数据为输入和输出部分
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
# inputs包含前两列,outputs包含最后一列# 处理数值列中的缺失值,用该列的均值填充
numeric_inputs = inputs.select_dtypes(include=['float64', 'int64'])
# 选择数值列
numeric_inputs = numeric_inputs.fillna(numeric_inputs.mean())
# 使用均值填充数值列中的NaN值# 处理类别数据的缺失值并进行独热编码
categorical_inputs = inputs.select_dtypes(exclude=['float64', 'int64'])
# 选择非数值列
categorical_inputs = pd.get_dummies(categorical_inputs, dummy_na=True)
# 使用独热编码处理类别列,并将NaN视为一个类别# 将数值列和处理后的类别列合并
inputs = pd.concat([numeric_inputs, categorical_inputs], axis=1)
print("\nProcessed Inputs:\n", inputs)  # 打印处理后的输入数据import torch# 将inputs和outputs数据转换为NumPy数组,并转换为PyTorch张量
X = torch.tensor(inputs.to_numpy(dtype=float))
y = torch.tensor(outputs.to_numpy(dtype=float))# 打印输出张量
print(X)
print(y)

这篇关于【鼠鼠学AI代码合集#4】简单的数据预处理(pytorch)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1093412

相关文章

SpringBoot中四种AOP实战应用场景及代码实现

《SpringBoot中四种AOP实战应用场景及代码实现》面向切面编程(AOP)是Spring框架的核心功能之一,它通过预编译和运行期动态代理实现程序功能的统一维护,在SpringBoot应用中,AO... 目录引言场景一:日志记录与性能监控业务需求实现方案使用示例扩展:MDC实现请求跟踪场景二:权限控制与

Java注解之超越Javadoc的元数据利器详解

《Java注解之超越Javadoc的元数据利器详解》本文将深入探讨Java注解的定义、类型、内置注解、自定义注解、保留策略、实际应用场景及最佳实践,无论是初学者还是资深开发者,都能通过本文了解如何利用... 目录什么是注解?注解的类型内置注编程解自定义注解注解的保留策略实际用例最佳实践总结在 Java 编程

一文教你Python如何快速精准抓取网页数据

《一文教你Python如何快速精准抓取网页数据》这篇文章主要为大家详细介绍了如何利用Python实现快速精准抓取网页数据,文中的示例代码简洁易懂,具有一定的借鉴价值,有需要的小伙伴可以了解下... 目录1. 准备工作2. 基础爬虫实现3. 高级功能扩展3.1 抓取文章详情3.2 保存数据到文件4. 完整示例

使用Java将各种数据写入Excel表格的操作示例

《使用Java将各种数据写入Excel表格的操作示例》在数据处理与管理领域,Excel凭借其强大的功能和广泛的应用,成为了数据存储与展示的重要工具,在Java开发过程中,常常需要将不同类型的数据,本文... 目录前言安装免费Java库1. 写入文本、或数值到 Excel单元格2. 写入数组到 Excel表格

判断PyTorch是GPU版还是CPU版的方法小结

《判断PyTorch是GPU版还是CPU版的方法小结》PyTorch作为当前最流行的深度学习框架之一,支持在CPU和GPU(NVIDIACUDA)上运行,所以对于深度学习开发者来说,正确识别PyTor... 目录前言为什么需要区分GPU和CPU版本?性能差异硬件要求如何检查PyTorch版本?方法1:使用命

python处理带有时区的日期和时间数据

《python处理带有时区的日期和时间数据》这篇文章主要为大家详细介绍了如何在Python中使用pytz库处理时区信息,包括获取当前UTC时间,转换为特定时区等,有需要的小伙伴可以参考一下... 目录时区基本信息python datetime使用timezonepandas处理时区数据知识延展时区基本信息

Qt实现网络数据解析的方法总结

《Qt实现网络数据解析的方法总结》在Qt中解析网络数据通常涉及接收原始字节流,并将其转换为有意义的应用层数据,这篇文章为大家介绍了详细步骤和示例,感兴趣的小伙伴可以了解下... 目录1. 网络数据接收2. 缓冲区管理(处理粘包/拆包)3. 常见数据格式解析3.1 jsON解析3.2 XML解析3.3 自定义

SpringMVC 通过ajax 前后端数据交互的实现方法

《SpringMVC通过ajax前后端数据交互的实现方法》:本文主要介绍SpringMVC通过ajax前后端数据交互的实现方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价... 在前端的开发过程中,经常在html页面通过AJAX进行前后端数据的交互,SpringMVC的controll

Pandas统计每行数据中的空值的方法示例

《Pandas统计每行数据中的空值的方法示例》处理缺失数据(NaN值)是一个非常常见的问题,本文主要介绍了Pandas统计每行数据中的空值的方法示例,具有一定的参考价值,感兴趣的可以了解一下... 目录什么是空值?为什么要统计空值?准备工作创建示例数据统计每行空值数量进一步分析www.chinasem.cn处

如何使用 Python 读取 Excel 数据

《如何使用Python读取Excel数据》:本文主要介绍使用Python读取Excel数据的详细教程,通过pandas和openpyxl,你可以轻松读取Excel文件,并进行各种数据处理操... 目录使用 python 读取 Excel 数据的详细教程1. 安装必要的依赖2. 读取 Excel 文件3. 读