回归内生性问题

1 内生性问题

对于回归方程$Y = a + bX + e$,当解释变量$X$和误差项$e$存在相关性时,说明回归模型存在内生性问题

内生性问题的产生原因:

  • 遗漏变量(比如在分析学历和收入的关系时,容易忽略个人能力的影响)
  • 反向因果(比如分析政策对经济影响时,要意识到经济对政策也是有影响的)
  • 选择偏误(样本选择偏误和自选择偏误)、以及测量误差等

内生性问题的后果:在小样本下,内生变量和外生变量估计系数都有偏。在大样本下,内生变量估计系数不一致。外生变量如果与内生变量不相关,则估计系数一致;如果与内生变量相关,则估计系数也不一致

内生性问题的常见处理方法:自然实验法,双重差分法(DID),工具变量法

解决内生性问题关键在于剔除解释变量$X$和误差项$e$之间的相关性

2 自然实验法

自然实验(natural experiment)需要寻找一个事件,并且这个事件只影响解释变量而不影响被解释变量。由此研究对象就会被随机(严格意义上说,事件并不能实现完全的随机)分成了实验组或控制组。

以一篇分析外国博士在美国参与博士后研究的论文为例进行说明:

  • 此篇论文在分析美国的博士后劳动力市场后,认为外国博士赴美参与博士后研究(工资较低)有两种常见原因:1. 特别喜欢并热衷于科研而不计较低廉的工资 2. 博士后研究工作能够得到在美国合法居住的身份
  • 为了从实证角度验证这两种情况的哪个更常见,此篇论文以92年颁布的一项法案作为分析切入点,该法案对于所有在1990 年4月11日之前抵达美国的中华人民共和国的居民全部授予永久居留权(绿卡)
  • 结论:中国赴美读博的人群中会有57%选择继续申请博士后。但是如果博士毕业就能拿绿卡,那么申请的概率就下降到43%。 换句话说,在美国申请博后的中国人中,其中有四分之一是以获取绿卡为目的。

更多自然实验的示例可参阅知乎-在社会科学研究中,研究者巧妙地运用过哪些「自然实验」?

3 双重差分法 DID

双重差分法(Difference-in-Difference ,DID)常用于描述某一次外部冲击的净效应;DID法一般将受冲击的样本作为实验组,再按照一定标准筛选未受冲击的样本作为对照组,通过两组数据结果做差来评估冲击的净效应

以分析”学区房因素与房价关系“为例,说明DID方法:

  • 假设某地区之前不存在学区房,然后现在新建了一所著名小学的分校
  • 在这一地区内,普通区域$A$转变为学区房,其在建校前后对应的房价波动为$d_A$
  • 由于离得比较远,普通区域$B$在建校后依然不是学区房,其在建校前后对应的房价波动为$d_B$
  • 定义两个区域的房价波动的差异$d=d_A-d_B$,$d$描述了建校事件对房价的冲击
  • 最终关于房价$P$的DID回归建模方程可描述如下:

$$P=b_0+b_1D_a+b_2D_t+d(D_a\times D_t)+Xb+e$$

  • 其中$b$表示回归系数,$D_a$为虚拟变量,属于区域$A$时为1,否则为0;
  • $D_t$属于时间虚拟变量,建校后为1,建校前为0;时间因素用于描述房价的趋势
  • $X$表示其他因素,控制住$X$后,$D_a\times D_t$描述的便是建校带来的房价提升效应

4 工具变量法 IV

工具变量(instrumental variable,IV)法是最常见的一种处理内生性问题的方法,其基本思路是:引入和内生变量高度相关的工具变量来替代内生变量,借此剔除原模型误差项和内生变量相关的因素

工具变量需要满足两个基本假设:

  • 工具变量外生性,或称为排他性约束(Exclusion Restrictions)。表示工具变量不与其它影响被解释变量的无法观测因素相关,并且工具变量只能通过影响内生变量而影响被解释变量;
  • 工具变量相关性(Relevance Condition)。工具变量与内生变量高度相关。

在使用工具变量解决内生性问题前,需要先进行工具变量检验,具体包括外生性检验、相关性检验、以及内生性检验

关于工具变量的构建思路及其示例可参阅知乎-高效的寻找工具变量

两阶段最小二乘(2SLS)是一种用于结构方程分析的统计技术,也是最小二乘法(OLS)法的扩展。IV法可以视为2SLS的特例:当内生变量个数=工具变量个数时,称为IV法;当内生变量个数<工具变量个数时,称为2SLS

假设$y=b_0+b_1x_1+b_2x_2+c$,其中$x_1$是严格外生的,$x_2$是内生的;工具变量为$z$

两阶段最小二乘(2SLS)回归的实现(主要包括两个阶段)

  • 第一阶段是借助工具变量$z$把$x_2$分为两部分(与$z$有关/外生部分,与$z$无关/内生部分): $$x_2=a_0+a_1z+a_2x_2+e$$
  • 第二阶段是用$x_2$的拟合值$a_0+a_1z+a_2x_2$代替真的$x_2$去进行回归,得到消除内生性问题的一致评估

5 倾向得分匹配法 PSM

倾向得分匹配法(Propensity Score Matching,PSM)使用倾向得分值作为依据,从控制组中寻找与实验组的样本最接近的配对样本;从而最大程度减少实验组与控制组个体存在的系统性差异,从而减少估计偏误

前置知识/基本概念:

  • 干预效果(Treatment Effect,TT):干预下的结果减去未干预时的结果 $\tau=Y_i(1)-Y_i(0)$
  • ATT(Average TT on the Treated):用户的整体平均干预效果 $\tau_{ATT}=E(\tau|D=1)$
  • 倾向性得分(Propensity Score):用户受到(参与)干预的概率 $P(D=1|X)$

其中$X$表示协变量,$Y$表示结果,$D$表示是否受到干预

倾向得分匹配法的前置假设:

  • 给定可观测的协变量$X$,潜在结果和干预分配是相互独立的(CIA)
  • 控制组和实验组之间存在共支撑(Common Support),即不能给定$X$准确确定$D$

倾向得分匹配法的计算过程:

  1. 选择合理的协变量,并使用逻辑回归(或其他分类模型)预测倾向性得分;所以倾向得分值,可看作将多个协变量维度降为1个维度的结果
  2. 为每个被干预的样本匹配一个(或多个)的对照样本,常用匹配方法包括:最近邻匹配(有放回/无放回)、有边界限制的半径匹配(避免低质量匹配的风险)、分层区间匹配(先按照重要特征分组,再在组内使用其他匹配方法)

当实验变量为连续值时,需要进行离散化处理以方便分组匹配

协变量的选择:

  • 要权衡,太多不容易找到匹配项,太少缺乏匹配结果的说服力
  • 原则1:同时影响干预分配和结果的变量应该被包括(使CIA成立)
  • 原则2:被干预项影响的变量应该排除(变量需要在干预项前计算)
  • 实际应用时:先选取尽可能多的特征,再使用常规的特征筛选方法

PSM 算法的匹配质量检验:

  • 标准化偏差:衡量$X$在实验组与对照组分布的差异,或差异减少量
  • 双侧T检验:判断两组的变量均值$\overline{X}$是否有显著差异
  • 建模预测验证或F检验:无法通过$X$预测用户是否受到干预

PSM 算法的局限性:

  • 样本量尽可能大,否则可能导致算法在控制组找不到匹配度高的样本
  • 控制组和实验组之间的倾向得分应该有较大共支撑部分,否则会丢失较多样本,失去代表性
  • PSM 只能缓解由可观测变量带来的内生性问题,无法处理不可观测变量带来的内生性问题

在 King and Nielsen 2019提出的论文中;提议将倾向得分与逆概率加权 (IPW) 一起使用,即不再只考虑匹配后的样本对,而是将匹配概率(倾向得分)转化为样本权重来进行建模

基于R语言的PSM算法实现

6 熵平衡

熵平衡(Entropy Balancing)算法的目标和 PSM 很像,只是实现过程中存在些许区别:

  • 熵平衡算法通过对样本加权,实现对照组与处理组的协变量(均值、方差和偏度)平衡
  • 具体来说,熵平衡算法以最小化熵距离为目标,添加一组矩约束来计算熵权重$w_i$

$$minH(w_i)=\Sigma_{i|D=0}w_ilog(w_i/q_i)$$

此处公式参考自基于熵平衡法的协变量平衡性检验

细节上感觉没说清楚,有空再看一下原始论文补一下基础

熵平衡 VS PSM:

  • 在小样本时实现匹配(即平衡掉干扰协变量的影响)的效率更高
  • 估计最终的因果效应时可用于非连续性的因变量,因而适用性强

熵平衡算法的局限性:

  • 将所有变量同等对待,容易把过多变量考虑为混杂变量

基于R语言的熵平衡算法实现

7 其他方法

面板数据模型、Heckman 选择模型、Treatment Effect 模型、RDD 断点回归、RK 拐点回归、合成控制法、结构方程模型等

参考

知乎-mosuchen的回答-内生性问题和工具变量

知乎-倾向得分匹配(PSM)的原理以及实现

往年同期文章