回归内生性问题

1 内生性问题
2 自然实验法
3 双重差分法 DID
4 工具变量法 IV
5 倾向得分匹配法 PSM
6 熵平衡
7 其他方法
参考

1 内生性问题

对于回归方程$Y = a + bX + e$，当解释变量$X$和误差项$e$存在相关性时，说明回归模型存在内生性问题

内生性问题的产生原因：

遗漏变量（比如在分析学历和收入的关系时，容易忽略个人能力的影响）
反向因果（比如分析政策对经济影响时，要意识到经济对政策也是有影响的）
选择偏误（样本选择偏误和自选择偏误）、以及测量误差等

内生性问题的后果：在小样本下，内生变量和外生变量估计系数都有偏。在大样本下，内生变量估计系数不一致。外生变量如果与内生变量不相关，则估计系数一致；如果与内生变量相关，则估计系数也不一致

内生性问题的常见处理方法：自然实验法，双重差分法（DID），工具变量法

解决内生性问题关键在于剔除解释变量$X$和误差项$e$之间的相关性

2 自然实验法

自然实验（natural experiment）需要寻找一个事件，并且这个事件只影响解释变量而不影响被解释变量。由此研究对象就会被随机（严格意义上说，事件并不能实现完全的随机）分成了实验组或控制组。

以一篇分析外国博士在美国参与博士后研究的论文为例进行说明：

此篇论文在分析美国的博士后劳动力市场后，认为外国博士赴美参与博士后研究（工资较低）有两种常见原因：1. 特别喜欢并热衷于科研而不计较低廉的工资 2. 博士后研究工作能够得到在美国合法居住的身份
为了从实证角度验证这两种情况的哪个更常见，此篇论文以92年颁布的一项法案作为分析切入点，该法案对于所有在1990 年4月11日之前抵达美国的中华人民共和国的居民全部授予永久居留权（绿卡）
结论：中国赴美读博的人群中会有57%选择继续申请博士后。但是如果博士毕业就能拿绿卡，那么申请的概率就下降到43%。换句话说，在美国申请博后的中国人中，其中有四分之一是以获取绿卡为目的。

3 双重差分法 DID

双重差分法（Difference-in-Difference ，DID）常用于描述某一次外部冲击的净效应；DID法一般将受冲击的样本作为实验组，再按照一定标准筛选未受冲击的样本作为对照组，通过两组数据结果做差来评估冲击的净效应

以分析”学区房因素与房价关系“为例，说明DID方法：

假设某地区之前不存在学区房，然后现在新建了一所著名小学的分校
在这一地区内，普通区域$A$转变为学区房，其在建校前后对应的房价波动为$d_A$
由于离得比较远，普通区域$B$在建校后依然不是学区房，其在建校前后对应的房价波动为$d_B$
定义两个区域的房价波动的差异$d=d_A-d_B$，$d$描述了建校事件对房价的冲击
最终关于房价$P$的DID回归建模方程可描述如下：

$$P=b_0+b_1D_a+b_2D_t+d(D_a\times D_t)+Xb+e$$

其中$b$表示回归系数，$D_a$为虚拟变量，属于区域$A$时为1，否则为0；
$D_t$属于时间虚拟变量，建校后为1，建校前为0；时间因素用于描述房价的趋势
$X$表示其他因素，控制住$X$后，$D_a\times D_t$描述的便是建校带来的房价提升效应

4 工具变量法 IV

工具变量（instrumental variable，IV）法是最常见的一种处理内生性问题的方法，其基本思路是：引入和内生变量高度相关的工具变量来替代内生变量，借此剔除原模型误差项和内生变量相关的因素

工具变量需要满足两个基本假设：

工具变量外生性，或称为排他性约束（Exclusion Restrictions）。表示工具变量不与其它影响被解释变量的无法观测因素相关，并且工具变量只能通过影响内生变量而影响被解释变量；
工具变量相关性（Relevance Condition）。工具变量与内生变量高度相关。

在使用工具变量解决内生性问题前，需要先进行工具变量检验，具体包括外生性检验、相关性检验、以及内生性检验

关于工具变量的构建思路及其示例可参阅知乎-高效的寻找工具变量

两阶段最小二乘（2SLS）是一种用于结构方程分析的统计技术，也是最小二乘法（OLS）法的扩展。IV法可以视为2SLS的特例：当内生变量个数=工具变量个数时，称为IV法；当内生变量个数<工具变量个数时，称为2SLS

假设$y=b_0+b_1x_1+b_2x_2+c$，其中$x_1$是严格外生的，$x_2$是内生的；工具变量为$z$

两阶段最小二乘（2SLS）回归的实现（主要包括两个阶段）

第一阶段是借助工具变量$z$把$x_2$分为两部分（与$z$有关/外生部分，与$z$无关/内生部分）：

$$x_2=a_0+a_1z+a_2x_2+e$$

第二阶段是用$x_2$的拟合值$a_0+a_1z+a_2x_2$代替真的$x_2$去进行回归，得到消除内生性问题的一致评估

5 倾向得分匹配法 PSM

倾向得分匹配法（Propensity Score Matching，PSM）使用倾向得分值作为依据，从控制组中寻找与实验组的样本最接近的配对样本；从而最大程度减少实验组与控制组个体存在的系统性差异，从而减少估计偏误

前置知识/基本概念：

干预效果（Treatment Effect，TT）：干预下的结果减去未干预时的结果 $\tau=Y_i(1)-Y_i(0)$
ATT（Average TT on the Treated）：用户的整体平均干预效果 $\tau_{ATT}=E(\tau|D=1)$
倾向性得分（Propensity Score）：用户受到（参与）干预的概率 $P(D=1|X)$

其中$X$表示协变量，$Y$表示结果，$D$表示是否受到干预

倾向得分匹配法的前置假设：

给定可观测的协变量$X$，潜在结果和干预分配是相互独立的（CIA）
控制组和实验组之间存在共支撑（Common Support），即不能给定$X$准确确定$D$

倾向得分匹配法的计算过程：

选择合理的协变量，并使用逻辑回归（或其他分类模型）预测倾向性得分；所以倾向得分值，可看作将多个协变量维度降为1个维度的结果
为每个被干预的样本匹配一个（或多个）的对照样本，常用匹配方法包括：最近邻匹配（有放回/无放回）、有边界限制的半径匹配（避免低质量匹配的风险）、分层区间匹配（先按照重要特征分组，再在组内使用其他匹配方法）

当实验变量为连续值时，需要进行离散化处理以方便分组匹配

协变量的选择：

要权衡，太多不容易找到匹配项，太少缺乏匹配结果的说服力
原则1：同时影响干预分配和结果的变量应该被包括（使CIA成立）
原则2：被干预项影响的变量应该排除（变量需要在干预项前计算）
实际应用时：先选取尽可能多的特征，再使用常规的特征筛选方法

PSM 算法的匹配质量检验：

标准化偏差：衡量$X$在实验组与对照组分布的差异，或差异减少量
双侧T检验：判断两组的变量均值$\overline{X}$是否有显著差异
建模预测验证或F检验：无法通过$X$预测用户是否受到干预

PSM 算法的局限性：

样本量尽可能大，否则可能导致算法在控制组找不到匹配度高的样本
控制组和实验组之间的倾向得分应该有较大共支撑部分，否则会丢失较多样本，失去代表性
PSM 只能缓解由可观测变量带来的内生性问题，无法处理不可观测变量带来的内生性问题

在 King and Nielsen 2019提出的论文中；提议将倾向得分与逆概率加权 (IPW) 一起使用，即不再只考虑匹配后的样本对，而是将匹配概率（倾向得分）转化为样本权重来进行建模

基于R语言的PSM算法实现

6 熵平衡

熵平衡（Entropy Balancing）算法的目标和 PSM 很像，只是实现过程中存在些许区别：

熵平衡算法通过对样本加权，实现对照组与处理组的协变量（均值、方差和偏度）平衡
具体来说，熵平衡算法以最小化熵距离为目标，添加一组矩约束来计算熵权重$w_i$

$$minH(w_i)=\Sigma_{i|D=0}w_ilog(w_i/q_i)$$

此处公式参考自基于熵平衡法的协变量平衡性检验

细节上感觉没说清楚，有空再看一下原始论文补一下基础

熵平衡 VS PSM：

在小样本时实现匹配（即平衡掉干扰协变量的影响）的效率更高
估计最终的因果效应时可用于非连续性的因变量，因而适用性强

熵平衡算法的局限性：

将所有变量同等对待，容易把过多变量考虑为混杂变量

基于R语言的熵平衡算法实现

7 其他方法

面板数据模型、Heckman 选择模型、Treatment Effect 模型、RDD 断点回归、RK 拐点回归、合成控制法、结构方程模型等

参考

知乎-mosuchen的回答-内生性问题和工具变量

知乎-倾向得分匹配（PSM）的原理以及实现

个人笔记

Digital Garden | 王半仙