另眼看待变量间多重共线性

2024-02-02 19:32

本文主要是介绍另眼看待变量间多重共线性,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

多重共线性是使用回归算法时经常要面对的一个问题。在其他算法中,例如决策树和Naïve Bayes,前者的建模过程是逐步递进,每次拆分只有一个变量参与,这种建模机制含有抗多重共线性干扰的功能;后者干脆假定变量之间是相互独立的,因此从表面上看,也没有多重共线性的问题。但是对于回归算法,不论是一般回归,逻辑回归,或存活分析,都要同时考虑多个预测因子,因此多重共线性是不可避免需要面对的。而在营销数据中,多重共线性更是一个普遍的现象。

多重共线性的危害主要是使用上的问题。简单地说,由于变量之间的高度相关,使算法无法准确分离各个因子对目标变量的影响,因而造成系数估计的偏差加大,体现在模型输出结果上是一系列错乱现象,例如:一个原本显著的变量由于另一个变量的加入突然失掉重要性、因子对目标变量的作用方向突然出现逆转、模型的拟合度很高,但各个因子都不显著,等等。

但是,多重共线性对预测模型的危害不应该被等量齐观。换句话说,如果数据挖掘的目的是预测,则一定程度的多重共线性是可以容忍的,只要一些基本条件能够被满足。包括:变量之间虽然高度相关,但算法仍然可以找到其各自对目标变量的影响,且影响是显著的;通过了内部检验,即模型在训练样本和检验样本上的表现基本一致,没有明显的恶化迹象;各个因子对目标变量的影响方向符合经验期望或理论。

为什么预测模型可以容纳一定程度的多重共线性?这需要从建模的目的谈起。模型的效用不外两个:预测和解释。两者都会用到回归算法。但是,回归算法在用于解释模型时对多重共线性的要求要较预测模型为高。换句话说,前者对多重共线性更敏感。原因在于解释模型的功能是判断每个因子对目标变量的独特贡献,而多重共线性阻挠了这种判断。而不能准确区分出每个因子的作用,即是宣告了解释模型的失败。但是对于预测模型来说,解释的功能是次要的,预测模型的首要任务是对未来做出某种推测,而这种推测需要依赖模型的整体能力,包括模型中涉及到的所有因子。至于单个因子是否准确,只要不影响到模型的总体能力,则不必过于计较。

看到这里,有人不免会发问,既然多重共线性总的来说不是一个积极的现象,那么何必非要保留在预测模型中呢?把多余的变量拿掉就是了。问题在于,只要变量之间不是百分之百地联系在一起,拿掉一个变量总会对模型的预测能力带来影响,尤其在拿掉的变量对目标变量的影响是其它变量无法取代的情况下。换句话说,数据挖掘人员不会特意保留多重共线性,但如果发现消除多重共线性会对模型的整体能力带来严重影响时,两害相衡取其轻,则还是以保留多重共线性为好。

因此,在构造预测模型时如何处理多重共线性是一个比较微妙的议题。既不能不加控制,又不能一刀切,认为凡是多重共线性就应该消除。

这篇关于另眼看待变量间多重共线性的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/671736

相关文章

Spring Boot中的路径变量示例详解

《SpringBoot中的路径变量示例详解》SpringBoot中PathVariable通过@PathVariable注解实现URL参数与方法参数绑定,支持多参数接收、类型转换、可选参数、默认值及... 目录一. 基本用法与参数映射1.路径定义2.参数绑定&nhttp://www.chinasem.cnbs

c++ 类成员变量默认初始值的实现

《c++类成员变量默认初始值的实现》本文主要介绍了c++类成员变量默认初始值,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录C++类成员变量初始化c++类的变量的初始化在C++中,如果使用类成员变量时未给定其初始值,那么它将被

Python变量与数据类型全解析(最新整理)

《Python变量与数据类型全解析(最新整理)》文章介绍Python变量作为数据载体,命名需遵循字母数字下划线规则,不可数字开头,大小写敏感,避免关键字,本文给大家介绍Python变量与数据类型全解析... 目录1、变量变量命名规范python数据类型1、基本数据类型数值类型(Number):布尔类型(bo

一文全面详解Python变量作用域

《一文全面详解Python变量作用域》变量作用域是Python中非常重要的概念,它决定了在哪里可以访问变量,下面我将用通俗易懂的方式,结合代码示例和图表,带你全面了解Python变量作用域,需要的朋友... 目录一、什么是变量作用域?二、python的四种作用域作用域查找顺序图示三、各作用域详解1. 局部作

java变量内存中存储的使用方式

《java变量内存中存储的使用方式》:本文主要介绍java变量内存中存储的使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、介绍2、变量的定义3、 变量的类型4、 变量的作用域5、 内存中的存储方式总结1、介绍在 Java 中,变量是用于存储程序中数据

Python多重继承慎用的地方

《Python多重继承慎用的地方》多重继承也可能导致一些问题,本文主要介绍了Python多重继承慎用的地方,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 目录前言多重继承要慎用Mixin模式最后前言在python中,多重继承是一种强大的功能,它允许一个

Pandas中多重索引技巧的实现

《Pandas中多重索引技巧的实现》Pandas中的多重索引功能强大,适用于处理多维数据,本文就来介绍一下多重索引技巧,具有一定的参考价值,感兴趣的可以了解一下... 目录1.多重索引概述2.多重索引的基本操作2.1 选择和切片多重索引2.2 交换层级与重设索引3.多重索引的高级操作3.1 多重索引的分组聚

浅析Rust多线程中如何安全的使用变量

《浅析Rust多线程中如何安全的使用变量》这篇文章主要为大家详细介绍了Rust如何在线程的闭包中安全的使用变量,包括共享变量和修改变量,文中的示例代码讲解详细,有需要的小伙伴可以参考下... 目录1. 向线程传递变量2. 多线程共享变量引用3. 多线程中修改变量4. 总结在Rust语言中,一个既引人入胜又可

java如何调用kettle设置变量和参数

《java如何调用kettle设置变量和参数》文章简要介绍了如何在Java中调用Kettle,并重点讨论了变量和参数的区别,以及在Java代码中如何正确设置和使用这些变量,避免覆盖Kettle中已设置... 目录Java调用kettle设置变量和参数java代码中变量会覆盖kettle里面设置的变量总结ja

Perl 特殊变量详解

《Perl特殊变量详解》Perl语言中包含了许多特殊变量,这些变量在Perl程序的执行过程中扮演着重要的角色,:本文主要介绍Perl特殊变量,需要的朋友可以参考下... perl 特殊变量Perl 语言中包含了许多特殊变量,这些变量在 Perl 程序的执行过程中扮演着重要的角色。特殊变量通常用于存储程序的