多元线性回归之基本假定的验证和处理办法

本文主要是介绍多元线性回归之基本假定的验证和处理办法，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

前言

多元线性回归模型统计推断结果的可靠性，建立在一些统计假设的基础上，只有在假设条件满足时，模型输出结果才成立，本文将展开讨论多元线性回归有哪些基本假设、如何检验假设是否成立、以及当基本假设不满足时的处理方案。同时需要说明的是，轻微违背假设并不会对主要的分析结果产生重大的影响，这是最小二乘法的一个特点，但是如果严重违背基本假设就会极大的破坏结果的合理性。

一基本假定

（一）误差的假定

1、服从正态分布

标准化残差与每个预测变量都不应该相关、与拟合值也不应该相关，此时误差服从正态分布；否则，模型存在内生性问题，内生性会破坏参数估计的“一致性”。

内生性产生的原因有：

a.测量误差：指的是模型使用的解释变量的数值和真实数据有误差（被解释变量的测量误差不会导致内生性）

b.遗漏解释变量：现实问题总是复杂的，一般情况下，谁也没办法找到所有能影响被解释变量的变量，遗漏解释变量几乎是不可避免的。但如果被遗漏的解释变量不光对被解释变量有影响，还对某个解释变量有影响，内生性问题就出现了。

c.互为因果：被解释变量能够反过来影响解释变量的情况被称为互为因果，有时也被称为反向因果。

d.动态面板偏差：动态面板是指面板数据模型中被解释变量的滞后项作为解释变量。由于被解释变量与误差项有关，被解释变量的滞后项当然也与误差项有关，也就是说该解释变量（被解释变量的滞后项与误差项相关）。

2、均值为0

（待补充）

3、等方差假定

或方差齐性假定，误差有相同（但未知）的方差，如果这一假定不满足，即：随机误差项具有不同的方差，则称线性回归模型存在异方差性。产生的原因主要有：

a.模型中遗漏了某些解释变量

b.模型函数形式的设定误差

c.样本数据的测量误差

d.随机因素的影响

4、相互独立

（自相关问题）标准的关于模型误差的假设是这样的：第i个误差和第j个误差是不相关的；误差项的相关性暗示这样一种可能性：现在建立的模型还没有将数据中所包含的全部信息表达出来；当观察数据具有自然顺序时（如时间顺序），这种误差间的相关性就称为自相关。在进行时间序列的数据分析的时候，应特别关注误差的自相关和季节性效应，同时探索利用滞后的预测变量的可能性。产生自相关的原因是多方面的：

a.在时间或空间上，相邻数据的残差趋于相似（又叫纯自相关）

b.遗漏解释变量，通常，自相关性是由遗漏了与时间相关的变量引起的，即如果被忽略的变量的相继值之间是相关的，那么相应的观测误差之间也会出现相关性，

tips：当模型存在异方差或自相关对模型的影响包括：

a. 回归系数的最小二乘估计是无偏的，但是不再具有最小方差；

b.方差和回归系数的标准差会被严重低估；即比实际值小很多，从而给出一个假想的精确估计；

c.置信区间和通常采用的各种显著性检验的结论，严格来说不再是可信的。

（二）预测变量的假定

1、非随机性:预测变量的非随机性，即他们的取值是固定的，在生产环境中显然这种假定不满足。此时模型的理论结果仍然成立，但对结果的解释必须修改，当预测变量是随机变量时，所有推断都是关于观测数据的条件推断。

2、取值没有随机误差：这个假定几乎是不能满足的，测量误差的存在会降低预测的精度，影响误差的方差，负相关系数以及单个回归系数的估计。

非随机性假设与取值没有随机误差的假设无法验证其合理性，所在在实际分析中，对此类假设不予关注和讨论，但他们的确会影响对回归结果的解释。

3、预测变量间假定线性无关：该假定是为了保证最小二乘解的唯一性，若该假定不成立，称为共线性问题

二验证方法

（一）误差的假定的验证

1、误差服从正态分布的检验方法 ：

a.Jarque-Bera统计量；

b.Kolmogorov-Smirnov检验；

c.QQ图；

d.标准化残差关于拟合值的散点图；

2、均值为0验证：无

3、同方差验证（异方差问题）检验方法

a.关于x的标准化残差图检验法,若包含残差的区域由两条平行于x轴的直线围成，则没有明显的异方差性；

b.Goldfeld - Quandt 检验法；

c.White检验法；

d.Park检验法；

e.Gleiser检验法

4、相互独立（自相关性）检验方法

a.标准化残差的顺序图配合游程检验；

b.Ljung-Box检验；

c.Durbin-Watson检验法；

d.LM检验法；

e.ADF检验法；

（二）预测变量假定的检验

1、非随机性检验：无

2、取值没有随机误差的检验：无

3、预测变量间假定线性无关（多重共线性问题）的检验

a.计算模型中各对自变量之间的相关系数，如果存在一个或多个相关系数是显著的，就表示存在多重共线性非问题

b.当模型的线性关系检验（F检验）显著时，几乎所有的回归系数的t检验却不显著

b.回归系数的正负号与预期的相反

d.容忍度（tolerance）与方差扩大因子（VIF）。某个自变量的容忍度等于1减去该自变量为因变量而其他自变量为预测变量时所得到的线性回归模型的判定系是。容忍度越小，多重共线性越严重。通常认为容忍度小于0.1时，存在严重的多重共线性。方差扩大因子等于容忍度的倒数。显然，VIF越大，多重共线性越严重。一般认为VIF大于10时，存在严重的多重共线性。

三处理方式

（一）误差假定不满足的处理

1、误差不服从正态分布的处理

a.使用IV工具变量；

b.两阶段最小二乘法2SLS 或 Heckman两步法；

c.GMM或系统GMM（当模型存在异方差时可用）；

d.matching类；

e.DID；

2、误差不满足均值为0的处理：无

3、异方差问题的处理（《例解回归分析》Samprit Chatterjee Ali S.Hadi p121）

a.变换模型形式；

b.加权最小二乘法（WLS）；

c.Y的对数变换；

d.Y的幂次变换；

4、自相关问题的处理

a.Cochrane-Orcutt，当自相关属于纯自相关可采取此种措施；

b.引进具有时序效应的新变量，当自相关是由于忽略了某个变量引起的，一旦加入该变量，这种自相关现象自然会消失；有时我们找不到这样的变量，只能试试将原始变量做差分运算。

c.根据实际情况引入示性变量

d.引入滞后预测变量上一期或多期的数据

e.时间序列模型中也可以包含趋势项，数据中具有时间趋势也是常见现象，模型中加入t的函数作为预测变量，实践中，通常加入时间t或t方，即时间的线性项或2次项

f.在数据处理中，使用目标变量的一阶差分（yt-yt-1）或滞后型变量（yt-a*yt-1）

（二）预测变量假定不满足的处理

1、非随机性不满足时的处理：无

2、取值没有随机误差不满足时的处理：无

3、预测变量间假定线性无关假定不满足时的处理

a.施加约束条件(《多元线性回归》Samprit Chatterjee Ali S.Hadi p194)

b.利用主成分的计算(《多元线性回归》Samprit Chatterjee Ali S.Hadi p192)

c.搜索模型中回归系数的线性函数（《多元线性回归》Samprit Chatterjee Ali S.Hadi p195）

d.主成分回归或岭回归方法替代传统的最小二乘法，岭回归是通过最小二乘法的改进，允许回归系数的有篇估计量存在而补救多重共线性的方法。

e.偏最小二乘法，偏最小二乘回归约等于多元线性回归分析+典型相关分析+主成分分析

f.增加样本容量。多重共线性问题的实质是样本信息的不充分而导致的模型参数不能精确估计，因此追加样本信息是解决该问题的一条有效途径。

g.将一个或多个相关的自变量从模型中剔除。逐步法作为自变量筛选方法

h.若要保留所有自变量，则应避免根据t统计量对单个参数进行检验；对因变量y值的推断限定在自变量样本值的范围内。

tips:本文内容总结如下表

假设类型	基本假设	假设的检验方法	不满足假设的处理办法
误差的假设	正态性假设	Jarque-Bera统计量	使用IV工具变量
		Kolmogorov-Smirnov检验	两阶段最小二乘法2SLS或 Heckman两步法
		QQ图	GMM或系统GMM（当模型存在异方差时可用）
		标准化残差关于拟合值的散点图	matching类
			DID
	0均值假设	不展开阐述	不展开阐述
	等方差假设	关于x的标准化残差图检验	变换模型形式（《例解回归分析》p121）
		Goldfeld - Quandt检验法	加权最小二乘法（WLS）（《例解回归分析》p121）
		White检验法	Y的对数变换
		Park检验法	Y的幂次变换
		Gleiser检验法
	独立性假设	标准化残差的顺序图配合游程检验	Cochrane-Orcutt
		Ljung-Box检验	引进具有时序效应的新变量
		Durbin-Watson检验法	根据实际情况引入示性变量
		LM检验法	引入滞后预测变量上一期或多期的数据
		ADF检验法	引入趋势项-t或t方
			引入目标变量的差分或滞后数据
预测变量的假设	非随机性假设	不展开阐述	不展开阐述
	无随机误差假设	不展开阐述	不展开阐述
	互相线性无关假设	计算x间相关系数	施加约束条件（《例解回归分析》p194）
		模型线性关系检验（F检验）显著，大多数回归系数t检验不显著	利用主成分的计算（《例解回归分析》p192）
		回归系数的正负号与预期的相反	搜索模型中回归系数的线性函数（《例解回归分析》p195）
		容忍度（tolerance）与方差扩大因子（VIF）	主成分回归或岭回归
			偏最小二乘法
			增加样本容量
			剔除一个或多个自变量