一致估计(准确认识回归分析中的内生性问题)

时间:2024/04/24 12:13:42 编辑:

欧易app下载

OKEX欧易app下载

欧易交易所app是全球排名第一的虚拟货币交易所。

APP下载   官网注册

来源:【中国社会科学网】

在回归分析中,解释变量的内生性可能会导致估计量的非一致性。很多文献都把内生性处理作为实证研究的重要内容。本文从来源、影响、处理等方面对内生性问题的基本思想进行梳理,希望能为经济实证分析提供些微的借鉴。

有限样本偏误普遍存在

回归分析中的内生性,通俗来讲,是指回归方程中解释变量与误差项相关。来自误差项的冲击会导致被解释变量发生变化,但我们无法直接观测误差项的冲击,只能看到解释变量和被解释变量的变化。因此,在估计参数时,估计量就可能把被解释变量的变化归因于与误差项相关的解释变量,尽管这一变化是由误差项而不是解释变量导致的。从而,解释变量的系数会被系统性地高估或低估,产生估计偏误。

当解释变量内生,即与当期(或个体自身)的误差项相关时,普通最小二乘估计量(OLS)的概率极限不等于真值,从而导致真实参数不可识别,这就是非一致估计。当解释变量弱外生,即与当期(或个体自身)的误差项不相关,而是与其他时点(或其他个体)的误差项相关,OLS估计量虽然在有限样本下有偏误,但是其概率极限等于真值,这就是一致估计。

那么,内生解释变量对模型中外生解释变量的系数估计有什么影响呢?此时,除非外生解释变量与内生解释变量都不相关,否则,其系数的OLS估计量也是非一致的。而且,实证分析中,解释变量严格外生(与任何时点任何个体的误差项都不相关)是很难满足的,所以,有限样本偏误是普遍存在的。

内生性来源辨析

内生性的来源主要是四种:变量的联立性、模型错误设定、样本截取、测量误差。

第一,联立性。变量的联立性是指,多个变量之间是相互依赖、同时决定的。如价格与交易量、工资与就业水平、利率与货币流动性等。在一个回归方程中,如果其中一个变量是被解释变量,其他与之联立的变量就必然是解释变量,这些解释变量就一定是内生的。这里需要说明的是,联立和反馈是两个不同的机制。区别在于,联立变量是同时决定的,而反馈则不一定,其影响的很可能是受反馈变量在下一期而不是当期的取值。变量之间的反馈机制不一定会导致内生性,但联立变量则一定会导致内生性。

第二,模型误设。模型误设导致的内生性主要源于遗漏变量,就是必要的解释变量被有意或无意忽略了。此时,遗漏变量对被解释变量的影响就只能由误差项来反映,误差项不再是纯粹的随机误差了。因为社会经济变量之间通常都具有一定的相关性,包含遗漏变量的误差项就可能与模型中的解释变量相关,从而导致其内生性。显然,因为同期变量之间通常会有一定的相关性,遗漏必要的解释变量通常会导致模型中所有的解释变量都是内生的。除了遗漏必要的解释变量,回归方程函数形式设定错误也会导致误差项含有遗漏的系统性信息,从而导致内生性。自回归模型中误差项的自相关,如动态模型的序列相关和空间自回归模型的截面相关,也必然会导致自回归项的内生性。

第三,样本截取。样本截取是指被解释变量存在一个观测阈值,只有大于(或小于)该阈值时才能被观测。样本截取分为两种情形:一是被截去的个体或样本点是可知的,尽管该样本点的被解释变量不可观测,但解释变量是可观测的,这样的样本被称为Tobit样本。二是被截去的个体或样本点是未知的,样本中没有被截去的样本点的任何信息,这样的样本被称为Truncated样本。无论是Tobit样本还是Truncated样本,因为误差项的下尾部(或上尾部)被截掉了,如果基于具有完整信息的子样本进行均值回归,那么其误差项的均值就不为0,而会随着解释变量的变化而变化。此时,被解释变量的条件期望是两部分之和:一是解释变量与其系数的乘积,二是误差项的条件均值,该均值是解释变量的函数。显然,截取样本的后果与遗漏变量类似,这里被遗漏的是误差项的条件均值,它与解释变量相关。所以,直接基于具有完整信息的子样本进行均值回归,解释变量就具有内生性,会导致非一致估计。

第四,解释变量有测量误差。当解释变量有测量误差时,测量误差就需要由模型的误差项来抵消,所以解释变量和误差项含有符号相反的测量误差,从而导致解释变量与误差项相关,其影响类似于遗漏了必要的解释变量。

统筹解决内生性问题

解决内生性问题,一个常用的手段就是使用工具变量(IV)。需要满足两个条件:一是外生性,至少是弱外生,也就是与模型当期或个体本身的随机冲击不相关。实际上,我们通常能够找到的工具变量都是弱外生的,严格外生的工具变量是很难找到的。二是与解释变量相关。在满足外生性的前提下,相关性越高越好。

如果工具变量是弱外生的,比如,以内生解释变量的滞后项作为工具变量,尽管我们可以得到一致的估计结果,但是,在有限样本下,估计量仍然是有偏误的。而且,IV估计量是以增大方差为代价换取偏误的减小。也就是说,与OLS估计量相比,IV估计量具有更大的方差。工具变量与内生解释变量的相关性越弱,估计方差就越大,这就是所谓的弱工具变量问题。显然,IV估计量是在偏误和方差之间进行权衡。

除了方差问题,在使用IV估计量测度处置效应时,还有局部识别的问题。在基于IV估计量测度处置效应时,所选的IV一般都是虚拟变量。在样本中,可能会有一些个体的选择行为不受这一虚拟变量的影响,也就是所谓的“不追随者”。对于这部分“不追随者”,我们无法识别其身份,更无法识别其处置效应。

显然,工具变量不是处理内生性的“万能钥匙”。那么,除了工具变量,还能怎么办呢?

其一,完备模型。显然,对于遗漏变量所导致的内生性,应该优先通过模型的完备设定来避免。因为遗漏变量通常会导致模型中所有解释变量都是内生的,从而为工具变量集的选择增加了难度。而模型的设定要有经济理论、传导机制或先验信息为基础,不能是单纯的数据实验,否则,模型设定的完备性就无从判定。在处置效应的测度中,如果处置变量是内生的,产出变量的条件期望不等于解释变量与其系数的乘积,二者之差是两个逆米尔斯(mills)比率。那么,基于正态性假定,通过Heckman两步法把两个逆mills比率作为解释变量加入模型中,就可以通过线性回归识别处置效应了。

其二,偏误修正。动态面板模型存在固有的内生性,因为个体效应导致误差项存在序列相关,从而导致滞后被解释变量是内生的。不过,动态面板模型的LSDV估计量尽管是非一致的,但与IV估计量相比,却具有最小的方差。现有文献给出了LSDV估计量的极限偏误。那么,可以通过迭代算法,对LSDV估计量进行偏误修正,这样既保留了LSDV的方差优势,又减小了估计偏误。所以,对动态面板模型而言,IV估计量或广义矩方法(GMM)不是必然的选择。

其三,ML估计。众所周知,对内生选择模型,除了Heckman两步法,我们还可以进行ML估计。而且,对于很多存在内生性的模型,如空间自回归模型,都可以进行ML估计,包括准极大似然估计(QMLE)、条件极大似然估计(CMLE)等。

其四,DID如何避免内生性?在实证分析中,DID方法被广泛应用来测度处置效应。而之所以要选用DID,肯定是条件独立性假设不成立,无法通过处置个体和非处置个体在截面上的比较来识别处置效应。DID基于非处置个体控制不可观测的时间效应,进而通过处置个体在处置前后的对比来识别处置效应。显然,如果处置个体和非处置个体具有不同的时间效应,处置个体的部分时间效应就会被遗漏在误差项中,处置效应的估计就是非一致的,这类似于模型中遗漏了必要的解释变量。那么如何判断处置个体与非处置参照个体之间有相同的时间效应呢?在回归方程中,相同的时间效应意味着,处理组和参照组在处置之前所有时点的级差系数均为0。这是一个多约束的检验,F统计量、似然比(LR)统计量、瓦尔德(Wald)统计量、拉格朗日乘数(LM)统计量都是适用的。需要注意的是:“相同时变性”的检验结论来自“不拒绝原假设”,此时,显著性水平越低(α越大),检验结论越可信。

最后要说明一点,即使解释变量内生,协整方程的OLS或FMOLS、DOLS估计量仍是超一致的,一般不需要工具变量。总之,内生性的处理要具体问题具体分析,没有也不会有通用的范式。

(作者单位:华中科技大学经济学院)

本文来自【中国社会科学网】,仅代表作者观点。全国党媒信息公共平台提供信息发布传播服务。

ID:jrtt