特征选择、特征降维和特征提取到底有什么区别和联系?这篇文章一次性给你讲清楚!

本文主要是介绍特征选择、特征降维和特征提取到底有什么区别和联系?这篇文章一次性给你讲清楚!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

一、特征选择:

1.最大互信息系数(MIC):

2.互信息(MI):

3.最大相关最小冗余算法(mRMR):

4.支持向量机递归特征消除(SVM_RFE):

二、特征降维:

1.主成分分析(PCA):

2.核主成分分析(KPCA):

3.t-分布随机邻域嵌入(t-SNE):

三、特征提取:

1.信号处理层面

2.深度学习层面

①CNN-LSTM-Attention:

②DBN-SVM:

③CNN-BiGRU-Attention:

④DBN-ELM:

四、总结

以上完整代码获取


不断有小伙伴留言说不了解特征选择、特征降维和特征提取之间的关系,在实际操作中也经常容易搞混。既然用了,就要知其然还要知其所以然,今天这篇文章就用通俗易懂的语言一次性讲清楚三者的区别!

首先,从通俗易懂和标准学术两种角度给大家详细解释!

一、特征选择

通俗易懂版:想象一下,你在拍照时会选择最能代表场景的角度,去除不必要的背景,这样的照片更能吸引人。特征选择也是同样的道理,它的目标是从所有的特征中选出最重要的那些,去除不相关或冗余的特征。这样做的好处是可以让模型更专注于那些有用的信息,提高模型的效率和性能。

学术专业版:特征选择是从原始数据集中选择出最有用的特征子集的过程。比如你现在有50个特征,可以通过模型来选择20个最有用的!目的是去除不相关(噪声)或冗余的特征,从而提高模型的性能,减少计算成本,并提高模型的可解释性。特征选择方法大致可以分为三类:过滤法(Filter Methods)、包裹法(Wrapper Methods)、和嵌入法(Embedded Methods)。

常用方法:

1.最大信息系数(MIC):

属于过滤法,最大互信息系数能够计算各个特征之间的最大互信息系数,进而根据最大互信息系数筛选最优特征。

2.互信息(MI):

属于过滤法,与最大互信息系数类似,计算各个特征之间的最大互信息,进而根据互信息筛选最优特征。

3.最大相关最小冗余算法(mRMR):

属于过滤法,用于在原始特征集合中找到与最终输出结果相关性最大,但是特征彼此之间相关性最小的一组特征

4.支持向量机递归特征消除(SVM_RFE):

属于包裹法,反复构建模型并选择最好或最差的特征(基于模型的权重),放弃选定的特征并在剩余的特征上重复这个过程,直到所有特征都历完毕。

二、特征维:

通俗易懂版:如果说特征选择是从照片中剪掉不需要的部分,那么特征降维就像是用一种技术手段,将照片压缩成更小的文件,同时尽量保留原来的信息。特征降维是通过数学方法减少特征的数量,将很多特征合并成较少的新特征。这不仅减少了数据的复杂度,还有助于避免过拟合,提高模型的泛化能力。常见的特征降维方法有PCA(主成分分析)。

学术专业版:特征降维是减少数据集中特征数量的过程,但它是通过创建新的特征组合或投影,而不是选择原始特征的子集。这些新特征是原始特征的转换或组合,旨在保留数据的大部分重要信息。常见的特征降维方法包括主成分分析(PCA)、线性判别分析(LDA)和t-分布随机邻域嵌入(t-SNE)等。特征降维通常用于数据可视化、降低存储需求、减少计算时间以及有时还可以帮助改善模型性能。

常用方法:

1.主成分分析(PCA)

通过线性变换将原始数据转换到新的坐标系统中,变换后的每个坐标轴(主成分)依次具有最大的方差。

2.核主成分分析(KPCA):

扩展了传统的主成分分析(PCA)方法,使其能够有效处理非线性数据结构。

3.t-分布随机邻域嵌入(t-SNE)

通过优化相似度的概率分布来寻找数据在低维空间的最佳表示,能够在低维空间中保持高维数据点之间的相对距离,非常适合于数据可视化。

三、特征提取:

通俗易懂版:特征提取就像是从一堆杂乱无章的信息中提炼出精华,创造出新的特征。它通过对原始数据进行变换或组合,生成一组“新”的特征,这些新特征能更好地代表数据的核心信息。特征提取在处理图像、文本等复杂数据时特别有用,因为直接处理这些数据往往不易于模型理解和学习。

学术专业版:特征提取是将原始数据转换或映射到新的特征空间的过程。这个过程涉及到从原始数据中提取信息并将其转化为更有效的表示形式(即,特征集)。特征提取旨在减少原始数据集的维度,同时保留关于原始数据集的尽可能多的重要信息。这种方法在图像处理、文本分析和语音识别等领域尤其常见。特征提取可以是手动设计特征,也可以通过自动化的方法(如通过深度学习模型)来实现。

常用的方法有:

1.信号处理层面

一般有基于频域的信号特征提取、基于时域的信号特征提取等等,一般可以用来做故障诊断等研究~

需要代码的小伙伴可留言,我会尽快出~

2.深度学习层面

一般通过CNN提取时间层面特征,大家熟知的CNN-LSTN-Attention就是通过这种方法实现,每个卷积层通过一系列的卷积核滤波器来捕捉数据的局部特征,然后使用池化层(如最大池化)来降低特征的空间维度,增强模型的泛化能力。

另外还有DBN深度置信网络,DBN由多层受限玻尔兹曼机(RBM)堆叠而成。每个RBM层都学数据在给定层的特征表示时的概率分布,能够自动发现复杂的、非线性的特征,这些特征往往是手工特征提取方法难以捕捉的。

以分类预测为例:

①CNN-LSTM-Attention:

CNN用于捕捉数据中的局部模式和特征;LSTM用于处理数据捕捉长期依赖关系;注意力机制提供了对关键信息的聚焦能力,从而提高预测的准确性。

②DBN-SVM:

用DBN进行特征提取,将提取后的特征放入SVM进行分类实现组合预测

以回归预测为例:

③CNN-BiGRU-Attention:

CNN用于捕捉数据中的局部模式和特征;BiGRU用于处理数据捕捉长期依赖关系;注意力机制提供了对关键信息的聚焦能力,从而提高预测的准确性。

④DBN-ELM:

用DBN进行特征提取,将提取后的特征放入SVM进行分类实现组合预测

四、总结

特征选择关注于从原始特征中选择最重要的子集,不改变特征本身。

特征降维通过创建新的特征组合减少特征的数量,以降低问题的维度。

特征提取从数据中提取新的特征,这些特征是原始数据的高效表示。

以上完整代码获取

点击下方小卡片,找到对应文章,后台回复关键字即可~

其他更多需求或想要的代码均可点击下方小卡片后台私信,看到后会秒回~

这篇关于特征选择、特征降维和特征提取到底有什么区别和联系?这篇文章一次性给你讲清楚!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/729389

相关文章

Spring Boot Interceptor的原理、配置、顺序控制及与Filter的关键区别对比分析

《SpringBootInterceptor的原理、配置、顺序控制及与Filter的关键区别对比分析》本文主要介绍了SpringBoot中的拦截器(Interceptor)及其与过滤器(Filt... 目录前言一、核心功能二、拦截器的实现2.1 定义自定义拦截器2.2 注册拦截器三、多拦截器的执行顺序四、过

C# Semaphore与SemaphoreSlim区别小结

《C#Semaphore与SemaphoreSlim区别小结》本文主要介绍了C#Semaphore与SemaphoreSlim区别小结,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的... 目录一、核心区别概览二、详细对比说明1.跨进程支持2.异步支持(关键区别!)3.性能差异4.API 差

Java中自旋锁与CAS机制的深层关系与区别

《Java中自旋锁与CAS机制的深层关系与区别》CAS算法即比较并替换,是一种实现并发编程时常用到的算法,Java并发包中的很多类都使用了CAS算法,:本文主要介绍Java中自旋锁与CAS机制深层... 目录1. 引言2. 比较并交换 (Compare-and-Swap, CAS) 核心原理2.1 CAS

MySQL中VARCHAR和TEXT的区别小结

《MySQL中VARCHAR和TEXT的区别小结》MySQL中VARCHAR和TEXT用于存储字符串,VARCHAR可变长度存储在行内,适合短文本;TEXT存储在溢出页,适合大文本,下面就来具体的了解... 目录一、VARCHAR 和 TEXT 基本介绍1. VARCHAR2. TEXT二、VARCHAR

python中getsizeof和asizeof的区别小结

《python中getsizeof和asizeof的区别小结》本文详细的介绍了getsizeof和asizeof的区别,这两个函数都用于获取对象的内存占用大小,它们来自不同的库,下面就来详细的介绍一下... 目录sys.getsizeof (python 内置)pympler.asizeof.asizeof

Python一次性将指定版本所有包上传PyPI镜像解决方案

《Python一次性将指定版本所有包上传PyPI镜像解决方案》本文主要介绍了一个安全、完整、可离线部署的解决方案,用于一次性准备指定Python版本的所有包,然后导出到内网环境,感兴趣的小伙伴可以跟随... 目录为什么需要这个方案完整解决方案1. 项目目录结构2. 创建智能下载脚本3. 创建包清单生成脚本4

Vue和React受控组件的区别小结

《Vue和React受控组件的区别小结》本文主要介绍了Vue和React受控组件的区别小结,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录背景React 的实现vue3 的实现写法一:直接修改事件参数写法二:通过ref引用 DOMVu

Go之errors.New和fmt.Errorf 的区别小结

《Go之errors.New和fmt.Errorf的区别小结》本文主要介绍了Go之errors.New和fmt.Errorf的区别,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考... 目录error的基本用法1. 获取错误信息2. 在条件判断中使用基本区别1.函数签名2.使用场景详细对

Redis中哨兵机制和集群的区别及说明

《Redis中哨兵机制和集群的区别及说明》Redis哨兵通过主从复制实现高可用,适用于中小规模数据;集群采用分布式分片,支持动态扩展,适合大规模数据,哨兵管理简单但扩展性弱,集群性能更强但架构复杂,根... 目录一、架构设计与节点角色1. 哨兵机制(Sentinel)2. 集群(Cluster)二、数据分片

一文带你迅速搞懂路由器/交换机/光猫三者概念区别

《一文带你迅速搞懂路由器/交换机/光猫三者概念区别》讨论网络设备时,常提及路由器、交换机及光猫等词汇,日常生活、工作中,这些设备至关重要,居家上网、企业内部沟通乃至互联网冲浪皆无法脱离其影响力,本文将... 当谈论网络设备时,我们常常会听到路由器、交换机和光猫这几个名词。它们是构建现代网络基础设施的关键组成