独热编码的两种实现形式

2024-01-01 16:12

本文主要是介绍独热编码的两种实现形式,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

独热编码的两种实现形式:

OneHotEncoderDictVectorizer是两种常用的特征向量化方法,用于将分类特征转换为数值特征。但还是有一定的区别不管是再输入格式还是在输出类型上都有一些不同。

区别:

  1. 输入格式要求:
    • OneHotEncoder:接受二维数组或稀疏矩阵作为输入。需要先对分类特征进行编码为整数标签,然后再使用OneHotEncoder进行转换。
    • DictVectorizer:接受字典列表或Pandas DataFrame作为输入。每个字典表示一个样本,键表示特征名称,值表示特征值。
  2. 输出类型:
    • OneHotEncoder:输出稀疏矩阵。对于大规模数据集和高维度特征,可以节省内存空间。
    • DictVectorizer:输出稠密矩阵。对于小规模数据集和低维度特征,输出的是一个数组。
  3. 处理缺失值:
    • OneHotEncoder:不直接处理缺失值,需要在进行编码之前对缺失值进行处理。
    • DictVectorizer:可以通过设置sparse=False参数将缺失值编码为0或使用其他指定的值。
  4. 特征名称的处理:
    • OneHotEncoder:不保留特征名称,只生成数值编码后的特征。
    • DictVectorizer:保留特征名称,可以通过get_feature_names()方法获取特征名称。

基础铺垫:

X.to_dict()这将返回一个字典,其中键是特征列的名称,值是特征列对应的 Series 对象。

import pandas as pddata = {'age': ['young', 'young', 'young', 'young', 'young'],'prescript': ['myope', 'myope', 'myope', 'myope', 'hyper'],'astigmatic': ['no', 'no', 'yes', 'yes', 'no'],'tearRate': ['reduced', 'normal', 'reduced', 'normal', 'reduced']
}
df = pd.DataFrame(data)
print(df)
print(df.to_dict())# 字典套字典
print('-----------------')
print(df.to_dict(orient='records')) # 列表套字典

在这里插入图片描述

X.to_dict():

{'A': {0: 1, 1: 2, 2: 3},'B': {0: 4, 1: 5, 2: 6}}

X.to_dict(orient='records'):

[{'A': 1, 'B': 4},{'A': 2, 'B': 5},{'A': 3, 'B': 6}]

X.values.tolist()这将返回特征矩阵 X 的值作为一个二维列表。每一行代表一个样本,每一列代表一个特征。这种方法将DataFrame转换为一个二维列表,可以方便地在某些情况下使用,例如一些需要输入列表形式的机器学习算法。

import pandas as pddata = {'age': ['young', 'young', 'young', 'young', 'young'],'prescript': ['myope', 'myope', 'myope', 'myope', 'hyper'],'astigmatic': ['no', 'no', 'yes', 'yes', 'no'],'tearRate': ['reduced', 'normal', 'reduced', 'normal', 'reduced']
}df = pd.DataFrame(data)
print(df)
print(df.values.tolist())

在这里插入图片描述

独热编码实现:

方法一:
from sklearn.feature_extraction import DictVectorizer
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
data = {'age': ['young', 'young', 'young', 'young', 'young'],'prescript': ['myope', 'myope', 'myope', 'myope', 'hyper'],'astigmatic': ['no', 'no', 'yes', 'yes', 'no'],'tearRate': ['reduced', 'normal', 'reduced', 'normal', 'reduced']
}df = pd.DataFrame(data)
print(df)
vectorizer = DictVectorizer(sparse=False)
# 注意需要将dataframe类型转化为键值对的形式
X_encoded = vectorizer.fit_transform(df.to_dict(orient='records')) 
print(X_encoded,type(X_encoded))

在这里插入图片描述

方法二:
import pandas as pd
from sklearn.feature_extraction import DictVectorizer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder
from sklearn.tree import DecisionTreeClassifier
data = {'age': ['young', 'young', 'young', 'young', 'young'],'prescript': ['myope', 'myope', 'myope', 'myope', 'hyper'],'astigmatic': ['no', 'no', 'yes', 'yes', 'no'],'tearRate': ['reduced', 'normal', 'reduced', 'normal', 'reduced']
}df = pd.DataFrame(data)
print(df)X_list=df.values.tolist()
enc = OneHotEncoder()
# enc.fit_transform(X_list) 结果是csr_matrix稀疏矩阵类型
X_encoded=enc.fit_transform(X_list).toarray()
print(X_encoded,type(X_encoded))

在这里插入图片描述

总结:

​ 总的来说,OneHotEncoder适用于处理整数标签编码的分类特征,输出稀疏矩阵,不处理缺失值,并且需要显式拟合和转换数据。DictVectorizer适用于处理字典格式或DataFrame格式的分类特征,输出稠密矩阵,可以处理缺失值,并且不需要显式拟合。选择哪种方法取决于数据的特点和使用的上下文。

这篇关于独热编码的两种实现形式的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/559806

相关文章

Flutter实现文字镂空效果的详细步骤

《Flutter实现文字镂空效果的详细步骤》:本文主要介绍如何使用Flutter实现文字镂空效果,包括创建基础应用结构、实现自定义绘制器、构建UI界面以及实现颜色选择按钮等步骤,并详细解析了混合模... 目录引言实现原理开始实现步骤1:创建基础应用结构步骤2:创建主屏幕步骤3:实现自定义绘制器步骤4:构建U

SpringBoot中四种AOP实战应用场景及代码实现

《SpringBoot中四种AOP实战应用场景及代码实现》面向切面编程(AOP)是Spring框架的核心功能之一,它通过预编译和运行期动态代理实现程序功能的统一维护,在SpringBoot应用中,AO... 目录引言场景一:日志记录与性能监控业务需求实现方案使用示例扩展:MDC实现请求跟踪场景二:权限控制与

Android实现定时任务的几种方式汇总(附源码)

《Android实现定时任务的几种方式汇总(附源码)》在Android应用中,定时任务(ScheduledTask)的需求几乎无处不在:从定时刷新数据、定时备份、定时推送通知,到夜间静默下载、循环执行... 目录一、项目介绍1. 背景与意义二、相关基础知识与系统约束三、方案一:Handler.postDel

使用Python实现IP地址和端口状态检测与监控

《使用Python实现IP地址和端口状态检测与监控》在网络运维和服务器管理中,IP地址和端口的可用性监控是保障业务连续性的基础需求,本文将带你用Python从零打造一个高可用IP监控系统,感兴趣的小伙... 目录概述:为什么需要IP监控系统使用步骤说明1. 环境准备2. 系统部署3. 核心功能配置系统效果展

解决IDEA报错:编码GBK的不可映射字符问题

《解决IDEA报错:编码GBK的不可映射字符问题》:本文主要介绍解决IDEA报错:编码GBK的不可映射字符问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录IDEA报错:编码GBK的不可映射字符终端软件问题描述原因分析解决方案方法1:将命令改为方法2:右下jav

Java controller接口出入参时间序列化转换操作方法(两种)

《Javacontroller接口出入参时间序列化转换操作方法(两种)》:本文主要介绍Javacontroller接口出入参时间序列化转换操作方法,本文给大家列举两种简单方法,感兴趣的朋友一起看... 目录方式一、使用注解方式二、统一配置场景:在controller编写的接口,在前后端交互过程中一般都会涉及

Python实现微信自动锁定工具

《Python实现微信自动锁定工具》在数字化办公时代,微信已成为职场沟通的重要工具,但临时离开时忘记锁屏可能导致敏感信息泄露,下面我们就来看看如何使用Python打造一个微信自动锁定工具吧... 目录引言:当微信隐私遇到自动化守护效果展示核心功能全景图技术亮点深度解析1. 无操作检测引擎2. 微信路径智能获

Python中pywin32 常用窗口操作的实现

《Python中pywin32常用窗口操作的实现》本文主要介绍了Python中pywin32常用窗口操作的实现,pywin32主要的作用是供Python开发者快速调用WindowsAPI的一个... 目录获取窗口句柄获取最前端窗口句柄获取指定坐标处的窗口根据窗口的完整标题匹配获取句柄根据窗口的类别匹配获取句

在 Spring Boot 中实现异常处理最佳实践

《在SpringBoot中实现异常处理最佳实践》本文介绍如何在SpringBoot中实现异常处理,涵盖核心概念、实现方法、与先前查询的集成、性能分析、常见问题和最佳实践,感兴趣的朋友一起看看吧... 目录一、Spring Boot 异常处理的背景与核心概念1.1 为什么需要异常处理?1.2 Spring B

Python位移操作和位运算的实现示例

《Python位移操作和位运算的实现示例》本文主要介绍了Python位移操作和位运算的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1. 位移操作1.1 左移操作 (<<)1.2 右移操作 (>>)注意事项:2. 位运算2.1