Normalizer(归一化)和MinMaxScaler(最小-最大标准化)的区别详解

本文主要是介绍Normalizer(归一化)和MinMaxScaler(最小-最大标准化)的区别详解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1.Normalizer(归一化)(更加推荐使用)

优点:将每个样本向量的欧几里德长度缩放为1,适用于计算样本之间的相似性。
缺点:只对每个样本的特征进行缩放,不保留原始数据的分布形状。
公式:对于每个样本,公式为:x / ||x||,其中x是样本向量,||x||是x的欧几里德范数。

2.MinMaxScaler(最小-最大标准化)

优点:将数据缩放到指定的范围(通常是0到1之间),保留了原始数据的形式。适用于需要保留原始数据分布形状的算法。
缺点:受异常值的影响较大,对分布不均匀的数据集可能导致信息损失。
公式:对于每个特征,公式为:(x - min) / (max - min),其中x是特征值,min是特征的最小值,max是特征的最大值。

在这里插入图片描述

3.Normalizer和MinMaxScaler区别

Normalizer和MinMaxScaler是不同的数据标准化方法。

Normalizer是一种将每个样本向量的长度缩放为1的归一化方法,它逐个样本对特征向量进行归一化,使得每个样本的特征向量都具有相同的尺度。

MinMaxScaler是一种将特征缩放到指定范围(通常是0到1之间)的标准化方法。它通过对每个特征进行线性变换,将特征值缩放到指定的最小值和最大值之间。

这两种方法有相似之处,都可以将数据缩放到一定范围内,但是归一化和最小-最大标准化的方式和目的不同。

归一化(Normalizer)在每个样本上进行操作,主要是为了保持样本之间的向量方向或角度关系,使得样本之间的相似性或距离计算更具可比性。

最小-最大标准化(MinMaxScaler)在每个特征上进行操作,主要是为了将特征值缩放到指定的范围,保留特征之间的相对关系。

因此,虽然它们都属于数据标准化的方法,但实际应用中,选择使用归一化还是最小-最大标准化取决于数据的特点和具体任务的需求。

4.案例解释

当使用Normalizer进行归一化时,每个样本的特征向量都会被调整为单位范数(默认为L2范数)。假设我们有一个包含两个样本的数据集,每个样本有两个特征。数据集如下:

样本1: [2, 4]
样本2: [1, 3]

使用Normalizer进行归一化后,结果如下:

from sklearn.preprocessing import MinMaxScaler,StandardScaler,Normalizer,RobustScaler
>>> scaler_x = Normalizer()
>>> scaler_x.fit_transform(x)
array([[0.4472136 , 0.89442719],[0.31622777, 0.9486833 ]])
样本1归一化后: [0.447, 0.894]
样本2归一化后: [0.316, 0.949]

每个样本的特征向量都被缩放到单位长度。

而当使用MinMaxScaler进行最小-最大标准化时,特征值会被缩放到一个指定的范围(通常是0到1之间)。假设我们有相同的数据集:

样本1: [2, 4]
样本2: [1, 3]

使用MinMaxScaler进行最小-最大标准化,将特征值缩放到0到1之间,结果如下:

from sklearn.preprocessing import MinMaxScaler,StandardScaler,Normalizer,RobustScaler
>>> scaler_x = MinMaxScaler()
>>> import numpy as np
>>> x = np.array([[2,4],[1,3]])
>>> scaler_x.fit_transform(x)
array([[1., 1.],[0., 0.]])
样本1标准化后: [1, 1]
样本2标准化后: [0, 0]

特征值被缩放到指定的范围之间。

可以看到,Normalizer(归一化)通过调整每个样本的特征向量的长度来进行归一化,而MinMaxScaler(最小-最大标准化)通过线性变换将特征值缩放到指定的范围内。在这个例子中,归一化操作将样本1归一化后的特征向量缩放到单位长度,而最小-最大标准化将样本1标准化后的特征值缩放到0到1之间。

这篇关于Normalizer(归一化)和MinMaxScaler(最小-最大标准化)的区别详解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/793454

相关文章

CSS place-items: center解析与用法详解

《CSSplace-items:center解析与用法详解》place-items:center;是一个强大的CSS简写属性,用于同时控制网格(Grid)和弹性盒(Flexbox)... place-items: center; 是一个强大的 css 简写属性,用于同时控制 网格(Grid) 和 弹性盒(F

spring中的ImportSelector接口示例详解

《spring中的ImportSelector接口示例详解》Spring的ImportSelector接口用于动态选择配置类,实现条件化和模块化配置,关键方法selectImports根据注解信息返回... 目录一、核心作用二、关键方法三、扩展功能四、使用示例五、工作原理六、应用场景七、自定义实现Impor

一文深入详解Python的secrets模块

《一文深入详解Python的secrets模块》在构建涉及用户身份认证、权限管理、加密通信等系统时,开发者最不能忽视的一个问题就是“安全性”,Python在3.6版本中引入了专门面向安全用途的secr... 目录引言一、背景与动机:为什么需要 secrets 模块?二、secrets 模块的核心功能1. 基

一文详解MySQL如何设置自动备份任务

《一文详解MySQL如何设置自动备份任务》设置自动备份任务可以确保你的数据库定期备份,防止数据丢失,下面我们就来详细介绍一下如何使用Bash脚本和Cron任务在Linux系统上设置MySQL数据库的自... 目录1. 编写备份脚本1.1 创建并编辑备份脚本1.2 给予脚本执行权限2. 设置 Cron 任务2

一文详解如何在idea中快速搭建一个Spring Boot项目

《一文详解如何在idea中快速搭建一个SpringBoot项目》IntelliJIDEA作为Java开发者的‌首选IDE‌,深度集成SpringBoot支持,可一键生成项目骨架、智能配置依赖,这篇文... 目录前言1、创建项目名称2、勾选需要的依赖3、在setting中检查maven4、编写数据源5、开启热

Python常用命令提示符使用方法详解

《Python常用命令提示符使用方法详解》在学习python的过程中,我们需要用到命令提示符(CMD)进行环境的配置,:本文主要介绍Python常用命令提示符使用方法的相关资料,文中通过代码介绍的... 目录一、python环境基础命令【Windows】1、检查Python是否安装2、 查看Python的安

HTML5 搜索框Search Box详解

《HTML5搜索框SearchBox详解》HTML5的搜索框是一个强大的工具,能够有效提升用户体验,通过结合自动补全功能和适当的样式,可以创建出既美观又实用的搜索界面,这篇文章给大家介绍HTML5... html5 搜索框(Search Box)详解搜索框是一个用于输入查询内容的控件,通常用于网站或应用程

Before和BeforeClass的区别及说明

《Before和BeforeClass的区别及说明》:本文主要介绍Before和BeforeClass的区别及说明,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Before和BeforeClass的区别一个简单的例子当运行这个测试类时总结Before和Befor

Python中使用uv创建环境及原理举例详解

《Python中使用uv创建环境及原理举例详解》uv是Astral团队开发的高性能Python工具,整合包管理、虚拟环境、Python版本控制等功能,:本文主要介绍Python中使用uv创建环境及... 目录一、uv工具简介核心特点:二、安装uv1. 通过pip安装2. 通过脚本安装验证安装:配置镜像源(可

C++ 函数 strftime 和时间格式示例详解

《C++函数strftime和时间格式示例详解》strftime是C/C++标准库中用于格式化日期和时间的函数,定义在ctime头文件中,它将tm结构体中的时间信息转换为指定格式的字符串,是处理... 目录C++ 函数 strftipythonme 详解一、函数原型二、功能描述三、格式字符串说明四、返回值五