多元线性回归之基本假定的验证和处理办法

2023-10-08 15:30

本文主要是介绍多元线性回归之基本假定的验证和处理办法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

多元线性回归模型统计推断结果的可靠性,建立在一些统计假设的基础上,只有在假设条件满足时,模型输出结果才成立,本文将展开讨论多元线性回归有哪些基本假设、如何检验假设是否成立、以及当基本假设不满足时的处理方案。同时需要说明的是,轻微违背假设并不会对主要的分析结果产生重大的影响,这是最小二乘法的一个特点,但是如果严重违背基本假设就会极大的破坏结果的合理性。

 

一 基本假定

(一)误差的假定

1、服从正态分布

      标准化残差与每个预测变量都不应该相关、与拟合值也不应该相关,此时误差服从正态分布;否则,模型存在内生性问题,内生性会破坏参数估计的“一致性”。

      内生性产生的原因有:

          a.测量误差:指的是模型使用的解释变量的数值和真实数据有误差(被解释变量的测量误差不会导致内生性)

          b.遗漏解释变量:现实问题总是复杂的,一般情况下,谁也没办法找到所有能影响被解释变量的变量,遗漏解释变量几乎是不可避免的。但如果被遗漏的解释变量不光对被解释变量有影响,还对某个解释变量有影响,内生性问题就出现了。

         c.互为因果:被解释变量能够反过来影响解释变量的情况被称为互为因果,有时也被称为反向因果。

         d.动态面板偏差:动态面板是指面板数据模型中被解释变量的滞后项作为解释变量。由于被解释变量与误差项有关,被解释变量的滞后项当然也与误差项有关,也就是说该解释变量(被解释变量的滞后项与误差项相关)。

2、均值为0

      (待补充

3、等方差假定

      或方差齐性假定,误差有相同(但未知)的方差,如果这一假定不满足,即:随机误差项具有不同的方差,则称线性回归模型存在异方差性。产生的原因主要有:

      a.模型中遗漏了某些解释变量

      b.模型函数形式的设定误差

      c.样本数据的测量误差

     d.随机因素的影响

4、相互独立

  (自相关问题)标准的关于模型误差的假设是这样的:第i个误差和第j个误差是不相关的;误差项的相关性暗示这样一种可能性:现在建立的模型还没有将数据中所包含的全部信息表达出来;当观察数据具有自然顺序时(如时间顺序),这种误差间的相关性就称为自相关。在进行时间序列的数据分析的时候,应特别关注误差的自相关和季节性效应,同时探索利用滞后的预测变量的可能性。产生自相关的原因是多方面的:

       a.在时间或空间上,相邻数据的残差趋于相似(又叫纯自相关)

       b.遗漏解释变量,通常,自相关性是由遗漏了与时间相关的变量引起的,即如果被忽略的变量的相继值之间是相关的,那么相应的观测误差之间也会出现相关性,

 

tips:当模型存在异方差或自相关对模型的影响包括:

      a. 回归系数的最小二乘估计是无偏的,但是不再具有最小方差;

      b.方差和回归系数的标准差会被严重低估;即比实际值小很多,从而给出一个假想的精确估计;

      c.置信区间和通常采用的各种显著性检验的结论,严格来说不再是可信的。

(二)预测变量的假定

1、非随机性:预测变量的非随机性,即他们的取值是固定的,在生产环境中显然这种假定不满足。此时模型的理论结果仍然成立,但对结果的解释必须修改,当预测变量是随机变量时,所有推断都是关于观测数据的条件推断。

2、取值没有随机误差:这个假定几乎是不能满足的,测量误差的存在会降低预测的精度,影响误差的方差,负相关系数以及单个回归系数的估计。

非随机性假设与取值没有随机误差的假设无法验证其合理性,所在在实际分析中,对此类假设不予关注和讨论,但他们的确会影响对回归结果的解释。

3、预测变量间假定线性无关:该假定是为了保证最小二乘解的唯一性,若该假定不成立,称为共线性问题

 

二 验证方法

(一)误差的假定的验证

1、误差服从正态分布的检验方法 :

     a.Jarque-Bera统计量;

     b.Kolmogorov-Smirnov检验;

     c.QQ图;

     d.标准化残差关于拟合值的散点图;

2、均值为0验证:无

3、同方差验证(异方差问题)检验方法

      a.关于x的标准化残差图检验法,若包含残差的区域由两条平行于x轴的直线围成,则没有明显的异方差性;

      b.Goldfeld - Quandt 检验法;

      c.White检验法;

      d.Park检验法;

      e.Gleiser检验法

4、相互独立(自相关性)检验方法

      a.标准化残差的顺序图配合游程检验;

      b.Ljung-Box检验;

      c.Durbin-Watson检验法;

      d.LM检验法;

      e.ADF检验法;

(二)预测变量假定的检验

1、非随机性检验:无

2、取值没有随机误差的检验:无

3、预测变量间假定线性无关(多重共线性问题)的检验

       a.计算模型中各对自变量之间的相关系数,如果存在一个或多个相关系数是显著的,就表示存在多重共线性非问题

       b.当模型的线性关系检验(F检验)显著时,几乎所有的回归系数的t检验却不显著

       b.回归系数的正负号与预期的相反

       d.容忍度(tolerance)与方差扩大因子(VIF)。某个自变量的容忍度等于1减去该自变量为因变量而其他自变量为预测变量时所得到的线性回归模型的判定系是。容忍度越小,多重共线性越严重。通常认为容忍度小于0.1时,存在严重的多重共线性。方差扩大因子等于容忍度的倒数。显然,VIF越大,多重共线性越严重。一般认为VIF大于10时,存在严重的多重共线性。

三 处理方式

(一)误差假定不满足的处理

1、误差不服从正态分布的处理

      a.使用IV工具变量;

      b.两阶段最小二乘法2SLS 或 Heckman两步法;

      c.GMM或系统GMM(当模型存在异方差时可用);

      d.matching类;

      e.DID;

2、误差不满足均值为0的处理:无

3、异方差问题的处理(《例解回归分析》Samprit Chatterjee   Ali S.Hadi  p121)

      a.变换模型形式;

      b.加权最小二乘法(WLS);

      c.Y的对数变换;

      d.Y的幂次变换;

4、自相关问题的处理

      a.Cochrane-Orcutt,当自相关属于纯自相关可采取此种措施;

      b.引进具有时序效应的新变量,当自相关是由于忽略了某个变量引起的,一旦加入该变量,这种自相关现象自然会消失;有时我们找不到这样的变量,只能试试将原始变量做差分运算。

      c.根据实际情况引入示性变量

      d.引入滞后预测变量上一期或多期的数据

      e.时间序列模型中也可以包含趋势项,数据中具有时间趋势也是常见现象,模型中加入t的函数作为预测变量,实践中,通常加入时间t或t方,即时间的线性项或2次项

      f.在数据处理中,使用目标变量的一阶差分(yt-yt-1)或滞后型变量(yt-a*yt-1)

 

(二)预测变量假定不满足的处理

1、非随机性不满足时的处理:无

2、取值没有随机误差不满足时的处理:无

3、预测变量间假定线性无关假定不满足时的处理

      a.施加约束条件(《多元线性回归》Samprit Chatterjee   Ali S.Hadi p194)

      b.利用主成分的计算(《多元线性回归》Samprit Chatterjee   Ali S.Hadi p192)

      c.搜索模型中回归系数的线性函数(《多元线性回归》Samprit Chatterjee   Ali S.Hadi p195)

      d.主成分回归或岭回归方法替代传统的最小二乘法,岭回归是通过最小二乘法的改进,允许回归系数的有篇估计量存在而补救多重共线性的方法。

      e.偏最小二乘法,偏最小二乘回归约等于多元线性回归分析+典型相关分析+主成分分析

      f.增加样本容量。多重共线性问题的实质是样本信息的不充分而导致的模型参数不能精确估计,因此追加样本信息是解决该问题的一条有效途径。

      g.将一个或多个相关的自变量从模型中剔除。逐步法作为自变量筛选方法

      h.若要保留所有自变量,则应避免根据t统计量对单个参数进行检验;对因变量y值的推断限定在自变量样本值的范围内。

 

tips:本文内容总结如下表

假设类型基本假设假设的检验方法不满足假设的处理办法
误差的假设正态性假设Jarque-Bera统计量使用IV工具变量
Kolmogorov-Smirnov检验两阶段最小二乘法2SLS或 Heckman两步法
QQ图GMM或系统GMM(当模型存在异方差时可用)
标准化残差关于拟合值的散点图matching类
 DID
0均值假设不展开阐述不展开阐述
等方差假设关于x的标准化残差图检验变换模型形式(《例解回归分析》p121)
Goldfeld - Quandt检验法加权最小二乘法(WLS)(《例解回归分析》p121)
White检验法Y的对数变换
Park检验法Y的幂次变换
Gleiser检验法 
独立性假设标准化残差的顺序图配合游程检验Cochrane-Orcutt
Ljung-Box检验引进具有时序效应的新变量
Durbin-Watson检验法根据实际情况引入示性变量
LM检验法引入滞后预测变量上一期或多期的数据
ADF检验法引入趋势项-t或t方
 引入目标变量的差分或滞后数据
预测变量的假设非随机性假设不展开阐述不展开阐述
无随机误差假设不展开阐述不展开阐述
互相线性无关假设计算x间相关系数施加约束条件(《例解回归分析》p194)
模型线性关系检验(F检验)显著,大多数回归系数t检验不显著利用主成分的计算(《例解回归分析》p192)
回归系数的正负号与预期的相反搜索模型中回归系数的线性函数(《例解回归分析》p195)
容忍度(tolerance)与方差扩大因子(VIF)主成分回归或岭回归
 偏最小二乘法
 增加样本容量
 剔除一个或多个自变量

 

 

 

参考文献

1.多重共线性的判别与解决 http://www.360doc.com/content/20/1023/19/72085106_942042673.shtml

2.内生性问题及其产生原因 https://zhuanlan.zhihu.com/p/110645711

3.内生性问题:起因,类型和解决办法https://zhuanlan.zhihu.com/p/156905895

4.《例解回归分析》(原书第五版)(美)Samprit Chatterjee   Ali S.Hadi 著

这篇关于多元线性回归之基本假定的验证和处理办法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:https://blog.csdn.net/weixin_41187013/article/details/115007306
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/166267

相关文章

python web 开发之Flask中间件与请求处理钩子的最佳实践

《pythonweb开发之Flask中间件与请求处理钩子的最佳实践》Flask作为轻量级Web框架,提供了灵活的请求处理机制,中间件和请求钩子允许开发者在请求处理的不同阶段插入自定义逻辑,实现诸如... 目录Flask中间件与请求处理钩子完全指南1. 引言2. 请求处理生命周期概述3. 请求钩子详解3.1

Python处理大量Excel文件的十个技巧分享

《Python处理大量Excel文件的十个技巧分享》每天被大量Excel文件折磨的你看过来!这是一份Python程序员整理的实用技巧,不说废话,直接上干货,文章通过代码示例讲解的非常详细,需要的朋友可... 目录一、批量读取多个Excel文件二、选择性读取工作表和列三、自动调整格式和样式四、智能数据清洗五、

MySQL基本查询示例总结

《MySQL基本查询示例总结》:本文主要介绍MySQL基本查询示例总结,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录Create插入替换Retrieve(读取)select(确定列)where条件(确定行)null查询order by语句li

SpringBoot如何对密码等敏感信息进行脱敏处理

《SpringBoot如何对密码等敏感信息进行脱敏处理》这篇文章主要为大家详细介绍了SpringBoot对密码等敏感信息进行脱敏处理的几个常用方法,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下... 目录​1. 配置文件敏感信息脱敏​​2. 日志脱敏​​3. API响应脱敏​​4. 其他注意事项​​总结

Python使用python-docx实现自动化处理Word文档

《Python使用python-docx实现自动化处理Word文档》这篇文章主要为大家展示了Python如何通过代码实现段落样式复制,HTML表格转Word表格以及动态生成可定制化模板的功能,感兴趣的... 目录一、引言二、核心功能模块解析1. 段落样式与图片复制2. html表格转Word表格3. 模板生

Python Pandas高效处理Excel数据完整指南

《PythonPandas高效处理Excel数据完整指南》在数据驱动的时代,Excel仍是大量企业存储核心数据的工具,Python的Pandas库凭借其向量化计算、内存优化和丰富的数据处理接口,成为... 目录一、环境搭建与数据读取1.1 基础环境配置1.2 数据高效载入技巧二、数据清洗核心战术2.1 缺失

SpringBoot项目中Redis存储Session对象序列化处理

《SpringBoot项目中Redis存储Session对象序列化处理》在SpringBoot项目中使用Redis存储Session时,对象的序列化和反序列化是关键步骤,下面我们就来讲讲如何在Spri... 目录一、为什么需要序列化处理二、Spring Boot 集成 Redis 存储 Session2.1

Python处理超大规模数据的4大方法详解

《Python处理超大规模数据的4大方法详解》在数据的奇妙世界里,数据量就像滚雪球一样,越变越大,从最初的GB级别的小数据堆,逐渐演变成TB级别的数据大山,所以本文我们就来看看Python处理... 目录1. Mars:数据处理界的 “变形金刚”2. Dask:分布式计算的 “指挥家”3. CuPy:GPU

Python中CSV文件处理全攻略

《Python中CSV文件处理全攻略》在数据处理和存储领域,CSV格式凭借其简单高效的特性,成为了电子表格和数据库中常用的文件格式,Python的csv模块为操作CSV文件提供了强大的支持,本文将深入... 目录一、CSV 格式简介二、csv模块核心内容(一)模块函数(二)模块类(三)模块常量(四)模块异常

详解如何在SpringBoot控制器中处理用户数据

《详解如何在SpringBoot控制器中处理用户数据》在SpringBoot应用开发中,控制器(Controller)扮演着至关重要的角色,它负责接收用户请求、处理数据并返回响应,本文将深入浅出地讲解... 目录一、获取请求参数1.1 获取查询参数1.2 获取路径参数二、处理表单提交2.1 处理表单数据三、