机器学习算法系列(三)-- 逻辑回归(对数几率回归)

2023-11-22 13:50

本文主要是介绍机器学习算法系列(三)-- 逻辑回归(对数几率回归),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

机器学习算法之–对数几率回归(逻辑斯蒂回归)算法

上个算法(算法系列二)介绍了如何使用线性模型进行回归学习,但若要做的是分类任务,则需要找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来。

虽然名字叫回归,但其实是分类学习方法

一、算法原理

对于给定的输入实例x,可求出P(Y=0|x)和P(Y=1|x)的条件概率值的大小比较,将实例x分到概率值较大的那一类。

1.1、预测函数

找出一个预测函数模型,输出值在[0,1]之间。接着,再选择一个基准值(例如0.5),若预测值》0.5,则预测为1;否则预测为0;【二分类问题】

我们可选择: g ( z ) = 1 1 + e − z g(z)=\frac{1}{1+e^{-z}} g(z)=1+ez1作为预测函数。
该函数称为Sigmoid函数,也可称作Logistic函数(名称由来),其图形如下

图中可以看出:

  • z=0:g(z) = 0.5
  • z>0:g(z) > 0.5,当z越来越大时,g(z)无限接近于1。
  • z<0:g(z) < 0.5,当z越来越小时,g(z)无限接近于0。

显然,这正符合我们想要的分类方式。

我们再结合线性回归的预测函数 h θ ( x ) = θ T x h_\theta(x)=\theta^Tx hθ(x)=θTx,则逻辑斯蒂回归算法的预测函数如下: r = h θ ( x ) = g ( z ) = g ( θ T x ) = 1 1 + e − θ T x r=h_\theta(x)=g(z)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}} r=hθ(x)=g(z)=g(θTx)=1+eθTx1

此处求解的是在输入x,参数θ的前提下,y=1的概率,用概率论公式可表示为 h θ ( x ) = P ( y = 1 ∣ x , θ ) h_\theta(x)=P(y=1|x,\theta) hθ(x)=P(y=1∣x,θ)
且必有: P ( y = 1 ∣ x , θ ) + P ( y = 0 ∣ x , θ ) = 1 P(y=1|x,\theta)+P(y=0|x,\theta)=1 P(y=1∣x,θ)+P(y=0∣x,θ)=1

r为正例可能性,1-r是其反例可能性,二者比值 r 1 − r \frac{r}{1-r} 1rr称为“几率”,反映了x作为正例的相对可能性,进一步对几率取对数,则得到“对数几率” l n r 1 − r ln\frac{r}{1-r} ln1rr
在二分类中,这是一个非黑即白的世界

实际上,这是在用线性回归模型的预测结果去逼近真是标记的对数几率,因此成为对数几率回归

对于

算法优点:

  • 直接对分类可能性进行建模,无需事先假设数据分布
  • 可得到近似概率预测
  • 求解的目标函数是任意阶可导凸函数,数学性质very good

1.2、参数估计(如何计算θ)

在训练过程中,算法通过最大化似然函数求解θ。具体来说,似然函数表示的是P(Y|X)的条件概率。统计学家通常使用“最大似然估计”方法来进行参数估计。这种方法就是求解参数W,使得模型的似然函数在已知观测数据下最大。
l n P ( y = 1 ∣ x ) 1 − P ( y = 0 ∣ x ) = θ T x = w x ln\frac{P(y=1|x)}{1-P(y=0|x)} = \theta^Tx=wx ln1P(y=0∣x)P(y=1∣x)=θTx=wx

也就是说,在逻辑回归中,输出y=1的对数几率是输入x的线性函数
显然有, P ( y = 1 ∣ x ) = e θ T x 1 + e θ T x P ( y = 0 ∣ x ) = 1 1 + e θ T x P(y=1|x)=\frac{e^{\theta^Tx}}{1+e^{\theta^Tx}}\\P(y=0|x)=\frac{1}{1+e^{\theta^Tx}} P(y=1∣x)=1+eθTxeθTxP(y=0∣x)=1+eθTx1

设: P ( y = 1 ∣ x ) = π ( x ) , P ( y = 0 ∣ x ) = 1 − π ( x ) P(y=1|x)=\pi(x), P(y=0|x)=1-\pi(x) P(y=1∣x)=π(x),P(y=0∣x)=1π(x)
于是可以通过极大似然估计来估计模型参数,似然函数为
∏ i = 1 n [ π ( x i ) ] y i [ 1 − π ( x ) ] 1 − y i \prod_{i=1}^n[\pi(x_i)]^{y^i}[1-\pi(x)]^{1-y^i} i=1n[π(xi)]yi[1π(x)]1yi
对数似然函数为 L ( w ) = ∑ i = 1 n [ y i l o g π ( x i ) + ( 1 − y i ) l o g ( 1 − π ( x ) ) ] L(w)=\sum_{i=1}^n[y_ilog\pi(x_i)+(1-y_i)log(1-\pi(x))] L(w)=i=1n[yilogπ(xi)+(1yi)log(1π(x))]

  • 成本函数(所有样本的成本平均值):- 1 n L ( w ) \frac{1}{n}L(w) n1L(w)

L ( w ) 求极值,便可得到 w 的估计值,问题也就变成了第一对数似然函数为目标的最优化问题 L(w)求极值,便可得到w的估计值,问题也就变成了第一对数似然函数为目标的最优化问题 L(w)求极值,便可得到w的估计值,问题也就变成了第一对数似然函数为目标的最优化问题

二、模型优化

2.1、梯度下降算法、

根据梯度下降算法定义,可以得到
θ j = θ j − α ∂ J ( θ ) ∂ θ j \theta_j=\theta_j-\alpha\frac{\partial J(\theta)}{\partial \theta_j} θj=θjαθjJ(θ)
此处关键是求成本函数的偏导数,最终得到梯度下降算法公式
θ j = θ j − α 1 m ∑ i = 1 m ( ( h ( x i ) − y i ) x j i ) \theta_j= \theta_j-\alpha\frac{1}{m}\sum_{i=1}^m ((h(x^i)-y^i)x_j^i) θj=θjαm1i=1m((h(xi)yi)xji)

注意此处的形式和线性回归算法的参数迭代公式是一样的,但数值计算方法完全不同
逻辑: h θ ( x ) = 1 1 + e − θ T x h_\theta(x)=\frac{1}{1+e^{-\theta^Tx}} hθ(x)=1+eθTx1
线性: h θ ( x ) = θ T x h_\theta(x)=\theta^Tx hθ(x)=θTx

*除了梯度下降算法之外,还有拟牛顿法等都可以求得其最优解

三、多元分类

逻辑回归可以解决二分类问题,那如果需要分类的超过了两个类别呢?显然也是也以应对的。

假设总共有n+1个类别,y={0,1,2,3,…,n},思路是转化为二元分类

  • 类别一:0,类别二:1~n,分别计算概率;
  • 类别一:1,类别二:0,2~n,再分别计算概率;
  • 类别一:n,类别二:0~n-1,再分别计算概率。

由此可见,总共需要n+1个预测函数,分别计算P(y=0|x,θ),…,P(y=n|x,θ)

  • 最后预测值: p r e d i c t i o n = m a x i ( h θ ( i ) ( x ) ) prediction=max_i(h_\theta^{(i)}(x)) prediction=maxi(hθ(i)(x))

预测出概率最高的哪个类别,就是样本所属类别

四、正则化

  • 采用正则化可以用来解决模型过拟合问题
  • 保留所有的特征,减少特征的权重 θ j \theta_j θj的值,确保所有的特征对预测值都有少量的贡献。
    当每个特征Xi对预测值Y都有少量的贡献时,这样的模型可以良好的工作,这就是正则化的目的。

五、算法实战

Logistic回归算法实战可参考该博客:《机器学习实战》第五章 Python3代码-(亲自修改测试可成功运行)

以上就是关于逻辑回归的分享,若有不妥之处,欢迎各路大佬不吝赐教~

喜欢的伙伴记得点个赞关注一下吧~

这篇关于机器学习算法系列(三)-- 逻辑回归(对数几率回归)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/410599

相关文章

Java中的雪花算法Snowflake解析与实践技巧

《Java中的雪花算法Snowflake解析与实践技巧》本文解析了雪花算法的原理、Java实现及生产实践,涵盖ID结构、位运算技巧、时钟回拨处理、WorkerId分配等关键点,并探讨了百度UidGen... 目录一、雪花算法核心原理1.1 算法起源1.2 ID结构详解1.3 核心特性二、Java实现解析2.

Go学习记录之runtime包深入解析

《Go学习记录之runtime包深入解析》Go语言runtime包管理运行时环境,涵盖goroutine调度、内存分配、垃圾回收、类型信息等核心功能,:本文主要介绍Go学习记录之runtime包的... 目录前言:一、runtime包内容学习1、作用:① Goroutine和并发控制:② 垃圾回收:③ 栈和

Android学习总结之Java和kotlin区别超详细分析

《Android学习总结之Java和kotlin区别超详细分析》Java和Kotlin都是用于Android开发的编程语言,它们各自具有独特的特点和优势,:本文主要介绍Android学习总结之Ja... 目录一、空安全机制真题 1:Kotlin 如何解决 Java 的 NullPointerExceptio

使用雪花算法产生id导致前端精度缺失问题解决方案

《使用雪花算法产生id导致前端精度缺失问题解决方案》雪花算法由Twitter提出,设计目的是生成唯一的、递增的ID,下面:本文主要介绍使用雪花算法产生id导致前端精度缺失问题的解决方案,文中通过代... 目录一、问题根源二、解决方案1. 全局配置Jackson序列化规则2. 实体类必须使用Long封装类3.

重新对Java的类加载器的学习方式

《重新对Java的类加载器的学习方式》:本文主要介绍重新对Java的类加载器的学习方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、介绍1.1、简介1.2、符号引用和直接引用1、符号引用2、直接引用3、符号转直接的过程2、加载流程3、类加载的分类3.1、显示

Springboot实现推荐系统的协同过滤算法

《Springboot实现推荐系统的协同过滤算法》协同过滤算法是一种在推荐系统中广泛使用的算法,用于预测用户对物品(如商品、电影、音乐等)的偏好,从而实现个性化推荐,下面给大家介绍Springboot... 目录前言基本原理 算法分类 计算方法应用场景 代码实现 前言协同过滤算法(Collaborativ

Java学习手册之Filter和Listener使用方法

《Java学习手册之Filter和Listener使用方法》:本文主要介绍Java学习手册之Filter和Listener使用方法的相关资料,Filter是一种拦截器,可以在请求到达Servl... 目录一、Filter(过滤器)1. Filter 的工作原理2. Filter 的配置与使用二、Listen

openCV中KNN算法的实现

《openCV中KNN算法的实现》KNN算法是一种简单且常用的分类算法,本文主要介绍了openCV中KNN算法的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录KNN算法流程使用OpenCV实现KNNOpenCV 是一个开源的跨平台计算机视觉库,它提供了各

springboot+dubbo实现时间轮算法

《springboot+dubbo实现时间轮算法》时间轮是一种高效利用线程资源进行批量化调度的算法,本文主要介绍了springboot+dubbo实现时间轮算法,文中通过示例代码介绍的非常详细,对大家... 目录前言一、参数说明二、具体实现1、HashedwheelTimer2、createWheel3、n

SpringBoot实现MD5加盐算法的示例代码

《SpringBoot实现MD5加盐算法的示例代码》加盐算法是一种用于增强密码安全性的技术,本文主要介绍了SpringBoot实现MD5加盐算法的示例代码,文中通过示例代码介绍的非常详细,对大家的学习... 目录一、什么是加盐算法二、如何实现加盐算法2.1 加盐算法代码实现2.2 注册页面中进行密码加盐2.