合成双重差分法 SDID

前置算法回顾
合成双重差分法

前置算法回顾

已知双重差分法 DID 的线性模型可表示如下： $$ Y_{it} = \beta_0 + \beta_1 Post_t + \beta_2 Treated_i + \beta_3 Treated_i Post_t + e_{it} $$

其中 post 表示时间虚拟变量，treated 表示干预虚拟变量

而通过引入个体/时间的固定效应，可以将 DID 表示为 TWFE 的形式： $$ \hat{\tau}^{did} = \underset{\mu, \alpha, \beta, \tau}{argmin} { \sum_{i=1}^N \sum_{t=1}^T \big(Y_{it} - (\mu + \alpha_i + \beta_t + \tau D_{it}\big)^2 } $$

其中 $\alpha_i$ 表示个体固定效应，$\beta_{t}$ 表示时间固定效应
TWFE 可以通过借助 DML 的思想来快速估计干预效应

合成控制法则需要先寻找最优的权重来组合样本，使数据满足平行趋势假设；其具体的建模过程，可以表述为一下形式（为例方便与 TWFE 对比分析）： $$ \hat{\tau}^{sc} = \underset{\beta, \tau}{argmin} { \sum_{i=1}^N \sum_{t=1}^T \big(Y_{it} - \beta_t - \tau D_{it}\big)^2 \hat{w}^{sc}_i } $$

相比于TWFE，合成控制法额外考虑了个体权重 $\hat{w}^{sc}_i$，但并没有考虑到个体固定效应 $\alpha_i$ 和总体截距 $\mu$，仅考虑到了时间固定效应$\beta_{t}$

合成双重差分法

合成双重差分法（Synthetic Diff-in-Diff，SDID）的公式定义如下： $$ \hat{\tau}^{sdid} = \underset{\mu, \alpha, \beta, \tau}{argmin} { \sum_{i=1}^N \sum_{t=1}^T \big(Y_{it} - (\mu + \alpha_i + \beta_t + \tau D_{it})^2 \hat{w}^{sdid}_i \hat{\lambda}^{sdid}_t \big) } $$

SDID 可以简单理解为在 DID 中添加合成控制法拟合的个体/时间权重
SDID 也可以理解为在合成控制法估计量中额外考虑个体的固定效应
$\hat{w}^{sdid}_i$ 表示个体权重，用于最小化对照组与干预组之间的个体均值差异
$\hat{\lambda}^{sdid}_t$ 表示时间权重，用于最小化干预组在干预前后之间的时间均值差异

时间权重 $\hat{\lambda}^{sdid}_t$ 的计算公式如下： $$ \hat{\lambda}^{sdid} = \underset{\lambda}{\mathrm{argmin}} \ ||\bar{\pmb{y}}_{post, co} - (\pmb{\lambda}_{pre} \pmb{Y}_{pre, co} + \lambda_0)||^2_2 \
\text{s.t } \ \sum \lambda_t = 1 \text{ and } \ \lambda_t > 0 \ \forall \ t $$

相比于合成控制法，SDID 允许不同时间段的结果存在常数差异，只需要趋势相关即可；因此 SDID 引入了截距项 $\lambda_0$ ；一般来说，距离干预的时间点越近，时间权重 $\hat{\lambda}^{sdid}_t$ 会越大

个体权重 $\hat{w}^{sdid}_i$ 的计算公式如下： $$ \hat{w}^{sdid} = \underset{w}{\mathrm{argmin}} \ ||\bar{\pmb{y}}_{pre, tr} - (\pmb{Y}_{pre, co} \pmb{w}_{co} + w_0)||^2_2 + \zeta^2 T_{pre} ||\pmb{w}_{co}||^2_2\
\text{s.t } \ \sum w_i = 1 \text{ and } \ w_i > 0 \ \forall \ i $$

相比于合成控制法，SDID 允许不同组之间存在常数差异，只需要趋势平行即可；因此 SDID 引入了截距项 $w_0$；此外，SDID 还引入了 Ridge 回归的正则化项 $\zeta^2$ 来减少估计的方差，让权重分散，防止权重集中在某个个体上（避免过拟合）

SDID 的分析

融合 TWFE 和合成控制法的优势，稳定且效果好
当平行趋势假设成立时，SDID 会退化成 DID
当合成控制法的拟合效果好时，SDID 的结果也很好
SDID 只需要加权后的数据满足平行趋势假设

个人笔记

Digital Garden | 王半仙

前置算法回顾

合成双重差分法