时序聚类

本文中大部分算法都可通过R语言的latend包复现

1 GBTM

轨迹分组算法(Group-based trajectory model,GBTM)

  • 最早由 Daniel Nagin 于 1999 年在知名心理学方法学杂志「Psychological Methods」开始推展
  • 接着由 Bobby Jones 与 Daniel Nagin 于 2001 年发表了 SAS procedure2,于是此方法慢慢开始流行
  • 一般要求每个样本的轨迹/特征序列的长度≥3(2个也可以分析,但缺少临床意义)

假设结果变量为$y$,其在某一个轨迹分组$j$中的轨迹曲线可表示如下(基于时间$t$的多项式回归): $$y^j=\beta_0^j+\beta_1^jt+\beta_2^jt^2+\beta_3^jt^3$$

  • 上式相当于对指定分组内样本,进行多项式回归;不同组间的回归系数和截距项都是独立的
  • 多项式一般很少超过三次项(对应两个转折点);注意剔除不显著的高次项,一次项可酌情保留

确定分组轨迹和数量

  • 模型评价一般使用AIC准则或者BIC准则,理论上可以穷举所有可能的分组来找到最佳分组
  • BIC最常用,BIC 永远都是负值,数字越大(越接近零)代表该模式相对的表现越好
  • 以较为复杂模型的 BIC 减较为简单模型的 BIC,再乘以 2 倍,若相减之后为正值且小于 2 表示有薄弱证据显示复杂模式的表现比较好、2~6表示中度证据(Moderate evidence)、6~10是强烈证据(Strong evidence)以及超过 10 的话是非常的强烈证据
  • 针对不同分组数量的模型计算平均BIC,然后通过Softmax函数得到不同分组数量的预估概率

确定样本的分组:

  • 确定分组轨迹和数量后,根据后验概率将每个样本分配给最佳轨迹;理想情况下,每个轨迹应保持组成员数量占比至少为 5%(如果样本量比较大,那么可以酌情下调这一占比阈值,比如1000样本可以考虑3%作为阈值,这样能确保每组至少30个样本)
  • 针对每组样本可计算平均后验概率,一般认为平均后验概率高于70%~80%为有效分组

进阶资料: 轨迹建模相关预研

实际体验不是很好,拟合能力比较差,遍历分组的计算成本较高

2 GMM及其变种

2.1 潜变量增长模型 LGM

传统的潜变量增长曲线模型(Latent Growth Model,LGM)可采用线性、二次、更高次曲线或分段函数来模拟纵向数据的轨迹,以线性函数为例,模型对应的拟合函数如下:

$$\begin{equation} \left\{ \begin{gathered} y_{it} = \alpha_{i} + \beta_{it} + \epsilon_{it} \ \\ \alpha_{i} = \alpha_{0}+\mu_{\alpha i} \ \\ \beta_{i} = \beta_{0}+\mu_{\beta i} \end{gathered} \right. \end{equation}$$

  • 其中,$y_{it}$表示个体$i$在测量时点$t$(年龄)的因变量值;$\epsilon_{it}$为随机误差
  • $\alpha_{i}$为个体$i$的截距,即个体指标的初始水平,$\beta_{i}$为个体$i$的斜率,即个体i指标的发展速度
  • $\alpha_{0}$和$\beta_{0}$分别为群体的平均截距和平均斜率,也称为固定效应
  • $\mu_{\alpha i}$和$\mu_{\beta i}$分别为个体$i$的截距和斜率的变异程度,也称为随机效应
  • 此线性模型的潜变量为截距潜变量和斜率潜变量

LGM有时也会被称为latent growth curve model,简称LGCM

2.2 潜变量混合增长模型 GMM

潜变量混合增长模型(Growth Mixture Modeling,GMM)在LGCM的基础上增加了分类潜变量,可以将存在异质性的群体分成若干个亚群,描述各个亚群的发展轨迹及其内个体的发展变化的差异,该模型存在两种潜变量:

  • (1)连续潜变量,包含增长特征参数,即随机截距、随机斜率或随机加速度等因子
  • (2)分类潜变量:将研究群体分成互斥的亚群来描述群体的异质性

GMM模型的表达公式如下(以线性函数为例):

$$\begin{equation} \left\{ \begin{gathered} y_{it} = P(C=k)\cdot (\alpha_{ik} + \beta_{itk} + \epsilon_{itk}) \ \\ \alpha_{ik} = \alpha_{0k}+\mu_{\alpha ik} \ \\ \beta_{ik} = \beta_{0k}+\mu_{\beta ik} \end{gathered} \right. \end{equation}$$

  • 分类潜变量$C$表示群体可分成的若干个亚群,共包含$k$个类别;$P(C=k)$表示个体$i$属于第$k$类的概率
  • 其他变量和LGCM相似,只不过原本群体的固定效应和随机效应变为了特定亚群(第$k$类)的效应

混合增长模型可以看作是潜增长模型(latent growth model)和潜分类模型(latent class model)的组合

2.3 潜类别增长模型 LCGM

潜类别增长模型(Latent Class Growth Model,LCGM)是GMM模型的特例,与GMM模型使用随机系数来估计个体的斜率和截距不同,LCGM模型假设在同一亚组内个体的斜率和截距均相同,类别组内的发展轨迹不存在个体差异。

LCGM模型的表达公式如下(以线性函数为例): $$\begin{equation} \left\{ \begin{gathered} y_{it} = P(C=k)\cdot (\alpha_{ik} + \beta_{itk} + \epsilon_{itk}) \ \\ \alpha_{ik} = \alpha_{0k} \ \\ \beta_{ik} = \beta_{0k} \end{gathered} \right. \end{equation}$$

  • 同一亚组内,不存在个体的变异(随机效应),即$\mu_{\alpha ik}=\mu_{\beta ik}=0$

潜在转换分析(Latent Transition Analysis, LTA)是LCGM下属的单独分析技术,用于确认个体类别属性是否随时间变化

2.4 潜变量模型的评价

模型拟合优劣的评价指标:

  • 模型拟合评价指标有AIC 、BIC、aBIC(最推荐)、Entropy,前三个指标越小说明模型拟合情况越好
  • Entropy评价模型分类的精确性,取值在0~1,一般大于0.8认为该模型的分类精确性较高。
  • 模型亚组分类比较包括VLRT和BLRT检验,当比较含k类的模型与k-1类模型拟合情况时,若检验结果P<0.05,则表示含k个亚类的模型更好,反之,则k-1类模型拟合较好。

3 其他方法

K-means:输入特征可考虑时序相关的特征

K-Shape:高效精准的时序聚类算法K-Shape

进阶阅读资料:轨迹建模相关预研

往年同期文章