本文中大部分算法都可通过R语言的latend包复现
1 GBTM
轨迹分组算法(Group-based trajectory model,GBTM)
- 最早由 Daniel Nagin 于 1999 年在知名心理学方法学杂志「Psychological Methods」开始推展
- 接着由 Bobby Jones 与 Daniel Nagin 于 2001 年发表了 SAS procedure2,于是此方法慢慢开始流行
- 一般要求每个样本的轨迹/特征序列的长度≥3(2个也可以分析,但缺少临床意义)
假设结果变量为$y$,其在某一个轨迹分组$j$中的轨迹曲线可表示如下(基于时间$t$的多项式回归): $$y^j=\beta_0^j+\beta_1^jt+\beta_2^jt^2+\beta_3^jt^3$$
- 上式相当于对指定分组内样本,进行多项式回归;不同组间的回归系数和截距项都是独立的
- 多项式一般很少超过三次项(对应两个转折点);注意剔除不显著的高次项,一次项可酌情保留
确定分组轨迹和数量
- 模型评价一般使用AIC准则或者BIC准则,理论上可以穷举所有可能的分组来找到最佳分组
- BIC最常用,BIC 永远都是负值,数字越大(越接近零)代表该模式相对的表现越好
- 以较为复杂模型的 BIC 减较为简单模型的 BIC,再乘以 2 倍,若相减之后为正值且小于 2 表示有薄弱证据显示复杂模式的表现比较好、2~6表示中度证据(Moderate evidence)、6~10是强烈证据(Strong evidence)以及超过 10 的话是非常的强烈证据
- 针对不同分组数量的模型计算平均BIC,然后通过Softmax函数得到不同分组数量的预估概率
确定样本的分组:
- 确定分组轨迹和数量后,根据后验概率将每个样本分配给最佳轨迹;理想情况下,每个轨迹应保持组成员数量占比至少为 5%(如果样本量比较大,那么可以酌情下调这一占比阈值,比如1000样本可以考虑3%作为阈值,这样能确保每组至少30个样本)
- 针对每组样本可计算平均后验概率,一般认为平均后验概率高于70%~80%为有效分组
进阶资料: 轨迹建模相关预研
实际体验不是很好,拟合能力比较差,遍历分组的计算成本较高
2 GMM及其变种
2.1 潜变量增长模型 LGM
传统的潜变量增长曲线模型(Latent Growth Model,LGM)可采用线性、二次、更高次曲线或分段函数来模拟纵向数据的轨迹,以线性函数为例,模型对应的拟合函数如下:
$$\begin{equation} \left\{ \begin{gathered} y_{it} = \alpha_{i} + \beta_{it} + \epsilon_{it} \ \\ \alpha_{i} = \alpha_{0}+\mu_{\alpha i} \ \\ \beta_{i} = \beta_{0}+\mu_{\beta i} \end{gathered} \right. \end{equation}$$
- 其中,$y_{it}$表示个体$i$在测量时点$t$(年龄)的因变量值;$\epsilon_{it}$为随机误差
- $\alpha_{i}$为个体$i$的截距,即个体指标的初始水平,$\beta_{i}$为个体$i$的斜率,即个体i指标的发展速度
- $\alpha_{0}$和$\beta_{0}$分别为群体的平均截距和平均斜率,也称为固定效应
- $\mu_{\alpha i}$和$\mu_{\beta i}$分别为个体$i$的截距和斜率的变异程度,也称为随机效应
- 此线性模型的潜变量为截距潜变量和斜率潜变量
LGM有时也会被称为latent growth curve model,简称LGCM
2.2 潜变量混合增长模型 GMM
潜变量混合增长模型(Growth Mixture Modeling,GMM)在LGCM的基础上增加了分类潜变量,可以将存在异质性的群体分成若干个亚群,描述各个亚群的发展轨迹及其内个体的发展变化的差异,该模型存在两种潜变量:
- (1)连续潜变量,包含增长特征参数,即随机截距、随机斜率或随机加速度等因子
- (2)分类潜变量:将研究群体分成互斥的亚群来描述群体的异质性
GMM模型的表达公式如下(以线性函数为例):
$$\begin{equation} \left\{ \begin{gathered} y_{it} = P(C=k)\cdot (\alpha_{ik} + \beta_{itk} + \epsilon_{itk}) \ \\ \alpha_{ik} = \alpha_{0k}+\mu_{\alpha ik} \ \\ \beta_{ik} = \beta_{0k}+\mu_{\beta ik} \end{gathered} \right. \end{equation}$$
- 分类潜变量$C$表示群体可分成的若干个亚群,共包含$k$个类别;$P(C=k)$表示个体$i$属于第$k$类的概率
- 其他变量和LGCM相似,只不过原本群体的固定效应和随机效应变为了特定亚群(第$k$类)的效应
混合增长模型可以看作是潜增长模型(latent growth model)和潜分类模型(latent class model)的组合
2.3 潜类别增长模型 LCGM
潜类别增长模型(Latent Class Growth Model,LCGM)是GMM模型的特例,与GMM模型使用随机系数来估计个体的斜率和截距不同,LCGM模型假设在同一亚组内个体的斜率和截距均相同,类别组内的发展轨迹不存在个体差异。
LCGM模型的表达公式如下(以线性函数为例): $$\begin{equation} \left\{ \begin{gathered} y_{it} = P(C=k)\cdot (\alpha_{ik} + \beta_{itk} + \epsilon_{itk}) \ \\ \alpha_{ik} = \alpha_{0k} \ \\ \beta_{ik} = \beta_{0k} \end{gathered} \right. \end{equation}$$
- 同一亚组内,不存在个体的变异(随机效应),即$\mu_{\alpha ik}=\mu_{\beta ik}=0$
潜在转换分析(Latent Transition Analysis, LTA)是LCGM下属的单独分析技术,用于确认个体类别属性是否随时间变化
2.4 潜变量模型的评价
模型拟合优劣的评价指标:
- 模型拟合评价指标有AIC 、BIC、aBIC(最推荐)、Entropy,前三个指标越小说明模型拟合情况越好
- Entropy评价模型分类的精确性,取值在0~1,一般大于0.8认为该模型的分类精确性较高。
- 模型亚组分类比较包括VLRT和BLRT检验,当比较含k类的模型与k-1类模型拟合情况时,若检验结果P<0.05,则表示含k个亚类的模型更好,反之,则k-1类模型拟合较好。
3 其他方法
K-means:输入特征可考虑时序相关的特征
K-Shape:高效精准的时序聚类算法K-Shape
进阶阅读资料:轨迹建模相关预研