分类目录归档:CausalInference

合成双重差分法 SDID

前置知识:双重差分法 DID合成控制法双向固定效应 TWFE

前置算法回顾

已知双重差分法 DID 的线性模型可表示如下: $$ Y_{it} = \beta_0 + \beta_1 Post_t + \beta_2 Treated_i + \beta_3 Treated_i Post_t + e_{it} $$

  • 其中 post 表示时间虚拟变量,treated 表示干预虚拟变量

而通过引入个体/时间的固定效应,可以将 DID 表示为 TWFE 的形式: $$ \hat{\tau}^{did} = \underset{\mu, \alpha, \

Read more

双向固定效应 TWFE

前置知识:因果效应评估_准实验因果效应评估_异质性双重机器学习 DML

双向固定效应

双向固定效应(Two Way Fixed Effect,TWFE)

  • 作为双重差分法 DID 的一种常见回归模型实现方式
  • TWFE 假设干扰效应是常量,并引入个体/时间的固定效应
  • 对于不同组的干预时间相同的情况,TWFE 和 DID 是等价的

当出现不同组的干预时间不同的情况,即错位实施(Staggered Adoption),TWFE 对干预效应的评估容易存在偏差,尤其是干预效应存在时间异质性的情况

简单来说,TWFE 会将早期干预组的干预效应

Read more

双重机器学习 DML

前置知识:因果效应评估_配平法因果效应评估_异质性因果效应评估_元学习

双重机器学习

双重机器学习 (Double Machine Learning, DML):利用机器学习强大的预测能力,先剔除 X 对 T 的影响,再剔除 X 对 Y 的影响,最后看残差之间的关系。

DML 的实现过程:

  • 先构建回归模型 $M_{y}$,该模型能根据特征 $X$ 来估计结果 $Y$
  • 再构建回归模型 $M_{t}$,该模型能根据特征 $X$ 来估计干预 $T$
  • 计算两个模型的残差:$\tilde{Y} = Y - M_y(X)$,$\tilde{T}

Read more

因果效应评估_元学习

前置知识:回归内生性问题因果推断入门

元学习

  • 一种因果效应评估的学习范式,属于潜在结果框架
  • 需要根据实际的业务场景来选择不同类型的元学习方法
  • 元学习的效果也高度依赖所选择和组合的机器学习方法

S-Learner

S 学习器(S-Learner)是一种最简单的元学习方法

  • 先训练模型 $M_{s}$ 来根据外生变量 $X$ 和干预变量 $T$ 来预测结果
  • 之后在推理阶段,通过指定不同的干预变量取值,来推理结果
  • 最后两种推理结果的差值即为条件干预效应(CATE)的估计值:

$$ \hat{\tau}(

Read more

因果效应评估_异质性

前置知识:回归内生性问题因果推断入门

异质性干预效应

定义外生变量为 $X$,干预变量为 $T$,评估异质性干预效应的公式如下: $$ \underset{T}{argmax} \ E[Y|X, T] $$

  • 举例来说,$Y$ 可以是每日销售额,$X$ 是背景特征(无法控制的外生变量,比如前几天的平均销售额),而 $T$ 是可以提高销售额的干预变量(比如价格调整、库存水平或营销策略)
  • 通过背景特征 $X$ 来定义个体类型,从而实现干预的异质化,即找到针对个体的最佳干预方式

线性回归示例

估计条件平均干预效应(CATE),以

Read more

因果效应评估_准实验

前置知识:回归内生性问题因果推断入门

因果效应评估之准实验

  • 通过研究设计(如事件、断点、工具变量)来识别因果
  • 利用某种政策变化等机制,模拟出一个近似实验的环境
  • 准实验主要用于修正已有数据中不可见的内生性问题
  • 准实验不需要满足条件无混杂性,需要满足满足平行趋势假设

配平法的常见算法:双重差分法 DID工具变量法 IV、面板数据模型、合成控制、断点回归

面板数据模型

面板数据(Panel Data):

  • 在多个时期内对同一单元进行重复观测,常见于政策评估/用户追踪
  • 面板数据已经控制了所有随时间保持不变的因素(尤其是混杂因素)

Read more

因果效应评估_配平法

前置知识:回归内生性问题因果推断入门

因果效应评估之配平法

  • 通过加权或筛选样本,将两组数据进行调整对齐
  • 配平法主要用于解决可观察数据内存在的数据偏差
  • 配平法需要同时满足独立性假设和条件无混杂性

配平法的常见算法:回归调整、倾向得分匹配、熵平衡、双重稳健估计

虚拟回归

虚拟回归(Regression for Dummies)

  • 将是否干预表示为 0-1 虚拟变量,其回归系数描述了组间均值差异
  • 引入虚拟协变量和交互项,也有助于改善线性模型的因果效应评估性能

缺点:建模能力弱,只能捕捉到变量之间的线性关系

异方

Read more

因果推断入门

因果推断基础

辛普森悖论 提醒我们在分析数据时要仔细考虑分组和混杂因素的影响,而因果推断的作用就是使用适当的方法识别和控制这些因素,从而可以更好地解释数据中的关系,并做出可靠的结论。

相关性与因果性:

  • 相关性描述了事物之间存在的关联,因果性则代表了事物之间的内在联系
  • 不同于相关性,因果性一般是单向的,即 A 是 B 的因,B 就不应该是 A 的因
  • 传统模型一般学习的只是相关性,这也是导致模型泛化能力不足的重

Read more