因果效应评估_配平法

前置知识:回归内生性问题因果推断入门

因果效应评估之配平法

  • 通过加权或筛选样本,将两组数据进行调整对齐
  • 配平法主要用于解决可观察数据内存在的数据偏差
  • 配平法需要同时满足独立性假设和条件无混杂性

配平法的常见算法:回归调整、倾向得分匹配、熵平衡、双重稳健估计

虚拟回归

虚拟回归(Regression for Dummies)

  • 将是否干预表示为 0-1 虚拟变量,其回归系数描述了组间均值差异
  • 引入虚拟协变量和交互项,也有助于改善线性模型的因果效应评估性能

缺点:建模能力弱,只能捕捉到变量之间的线性关系

异方差性(heteroskedasticity)

  • 特征值之间的方差不是恒定不变的,存在低方差区域和高方差区域
  • 比如说,随着年龄的增加,老年人的工资方差是高于年轻人的
  • 该问题常见于样本量偏小的情况,此时建议采用加权最小二乘法
  • 对于线性模型,样本量更大、方差更小的数据点应该被赋予更高的权重

当使用 Python 的 statsmodels 包进行线性回归建模时,可以将 statsmodels.formula.api.ols 函数替换为 statsmodels.formula.api.wls;即可将普通最小二乘法替换为加权最小二乘法

倾向得分匹配法 PSM

倾向得分匹配法(Propensity Score Matching,PSM)使用倾向得分值作为依据,从控制组中寻找与实验组的样本最接近的配对样本;从而最大程度减少实验组与控制组个体存在的系统性差异,从而减少估计偏误

前置知识/基本概念:

  • 干预效果(Treatment Effect,TT):干预下的结果减去未干预时的结果 $\tau=Y_i(1)-Y_i(0)$
  • ATT(Average TT on the Treated):用户的整体平均干预效果 $\tau_{ATT}=E(\tau|D=1)$
  • 倾向性得分(Propensity Score):用户受到(参与)干预的概率 $P(D=1|X)$

%3E 其中$X$表示协变量,$Y$表示结果,$D$表示是否受到干预

倾向得分匹配法的前置假设:

  • 给定可观测的协变量$X$,潜在结果和干预分配是相互独立的(CIA)
  • 控制组和实验组之间存在共支撑(Common Support),即不能给定$X$准确确定$D$

倾向得分匹配法的计算过程:

  1. 选择合理的协变量,并使用逻辑回归(或其他分类模型)预测倾向性得分;所以倾向得分值,可看作将多个协变量维度降为1个维度的结果
  2. 为每个被干预的样本匹配一个(或多个)的对照样本,常用匹配方法包括:最近邻匹配(有放回/无放回)、有边界限制的半径匹配(避免低质量匹配的风险)、分层区间匹配(先按照重要特征分组,再在组内使用其他匹配方法)

当实验变量为连续值时,需要进行离散化处理以方便分组匹配

协变量的选择:

  • 要权衡,太多不容易找到匹配项,太少缺乏匹配结果的说服力
  • 原则1:同时影响干预分配和结果的变量应该被包括(使CIA成立)
  • 原则2:被干预项影响的变量应该排除(变量需要在干预项前计算)
  • 实际应用时:先选取尽可能多的特征,再使用常规的特征筛选方法

PSM 算法的匹配质量检验:

  • 标准化偏差:衡量$X$在实验组与对照组分布的差异,或差异减少量
  • 双侧T检验:判断两组的变量均值$\overline{X}$是否有显著差异
  • 建模预测验证或F检验:无法通过$X$预测用户是否受到干预

PSM 算法的局限性:

  • 样本量尽可能大,否则可能导致算法在控制组找不到匹配度高的样本
  • 控制组和实验组之间的倾向得分应该有较大共支撑部分,否则会丢失较多样本,失去代表性
  • PSM 只能缓解由可观测变量带来的内生性问题,无法处理不可观测变量带来的内生性问题

在 King and Nielsen 2019提出的论文中;提议将倾向得分与逆概率加权 (IPW) 一起使用,即不再只考虑匹配后的样本对,而是将匹配概率(倾向得分)转化为样本权重来进行建模

基于R语言的PSM算法实现

熵平衡

熵平衡(Entropy Balancing)算法的目标和 PSM 很像,只是实现过程中存在些许区别:

  • 熵平衡算法通过对样本加权,实现对照组与处理组的协变量(均值、方差和偏度)平衡
  • 具体来说,熵平衡算法以最小化熵距离为目标,添加一组矩约束来计算熵权重 $w_i$

$$minH(w_i)=\Sigma_{i|D=0}w_ilog(w_i/q_i)$$

此处公式参考自基于熵平衡法的协变量平衡性检验

细节上感觉没说清楚,有空再看一下原始论文补一下基础

熵平衡 VS PSM:

  • 在小样本时实现匹配(即平衡掉干扰协变量的影响)的效率更高
  • 估计最终的因果效应时可用于非连续性的因变量,因而适用性强

熵平衡算法的局限性:

  • 将所有变量同等对待,容易把过多变量考虑为混杂变量

基于R语言的熵平衡算法实现

双重稳健估计

双重稳健估计(Doubly Robust Estimation):将线性回归与倾向得分相结合

双重稳健:同时应用两种方法来消除因果估计中的偏见,两种方法起到双重保险的作用;换言之,如果倾向得分是正确的,即使建模结果是错误的,该方法也能够识别因果效应。另一方面,如果建模结果是正确的,即使倾向评分模型是错误的,该方法也能够识别因果效应

双重机器学习

双重机器学习

往年同期文章