基于电子病历的嵌入式个性临床特征表示

中文标题:基于电子病历的嵌入式个性临床特征表示

英文标题:ConCare: Personalized Clinical Feature Embedding via Capturing the Healthcare Context

发布平台:AAAI

Proceedings of the AAAI Conference on Artificial Intelligence

发布日期:2020-04-03

引用量(非实时):60

DOI:10.1609/aaai.v34i01.5428

作者:Liantao Ma, Chaohe Zhang, Yasha Wang, Wenjie Ruan, Jiangtao Wang, Wen Tang, Xinyu Ma, Xin Gao, Junyi Gao

关键字: #ConCare #Attention #时间序列 #embeding #EMR

文章类型:journalArticle

品读时间:2021-12-22 10:31

1 文章萃取

1.1 核心观点

在本论文中,作者提出了一种叫做ConCare的框架,用于处理不规则EMR数据(电子病历数据),并基于多头自注意力机制,从数据中提取特征间(静态信息和动态时序特征)的相互关系来进行病人的个性化健康预测。最终结果也得到了相关医学专家和文献的验证。

1.2 综合评价

  • 灵活运用Attention机制的QKV提取时序的重要性和特征的关联性
  • 修改损失函数,解耦多头自注意力机制,去除嵌入式特征的自相关性
  • 借助多头去相关性和定制的QKV增加模型的可解释性
  • 内容充实、效果卓越、有代码、有相对落地的展示页面

1.3 主观评分:⭐⭐⭐⭐⭐

2 精读笔记

2.1 数据

医疗数据包括2个部分:患者的基础信息和EMR的动态时序信息

目标变量:(特定疾病或状态下的)患者未来48h的死亡率/患病率

2.2 时序的重要性

  • 血白蛋白的持续下降预示着患者可能营养不良或出现低蛋白血症

  • 血超敏C反应蛋白的突然上升预示着身体出现急性炎症

  • 对有心脑血管(CVD)病史的人来说,血压值的高低极大影响生存

  • 对于血红蛋白(HGB)下降的病人来说,可能预示消化道出血等严重症状

2.3 ConCare框架:捕捉特征关系

PART 1:多通道时序嵌入

  • 每个特征构建自己的GRU模型
  • 使用时间感知注意力机制聚合多个时点的隐状态

PART 2: 基于特征间关系进行嵌入重构

  • 多头自注意力机制
  • 多头信息去相关性

PART 3:健康风险预测

  • 静态 & 动态特征聚合
  • 预测健康情况
2.3.1 多通道时序嵌入
  • 每个特征构成一条时序,其中第$n$条时序是$(r_{n,1},...,r_{n,T})$
  • 每个时序单独构建GRU模型,$h_{n,1},...,h_{n,T}=GRU_n(r_{n,1},...,r_{n,T})$,其中$h$表示GRU模型中每个特征的隐藏状态
  • 借助Time-aware注意力机制捕捉时点的重要性,此注意力机制的QKV分别是$q_{n,T}=W_n^qh_{n,T}$,$k_{n,t}=W_n^qh_{n,t}$,$v_{n,t}=h_{n,t}$。这里的查询向量q是由最终T时刻的特征隐藏状态映射得到的,关键向量k则是每个t时刻的特征隐藏状态的映射。而相应的打分函数则是:

$$\xi_{nt}=tanh(\frac{q_{nT}k_{nt}}{\beta_nlog(e+(1-\sigma(q_{nT}k_{nt}))\Delta t)})$$

  • 其中$\beta_n$是一个可学习参数,表示特征的衰减程度;$q_{nT}k_{nt}$是两个向量的点积,能反映t时刻的特征对最终T时刻的影响程度;$\Delta t$是时刻t距离时刻T的时间间隔
  • 打分函数值经过softmax转换,即可得到attention score,也就是每一个时刻的注意力权重,$\alpha_{n1},\alpha_{n2},...,\alpha_{nT}=softmax(\xi_{n1},\xi_{n2},...,\xi_{nT})$
  • 最终的嵌入式特征表示$f_n=\Sigma_{t=1}^T\alpha_{nt}h_{nt}$
2.3.2 基于特征间关系进行表示重构
  • 将上一节所得的嵌入式特征表示及静态特征作为输入,通过多头自注意力机制生成一个更好的特征表示。此阶段得到的attention score能表示特征间的依赖关系。最终输出结果为重构后的嵌入式特征表示$f^{\ast}$
  • 由于多头自注意力机制中的多个head所学习到的信心可能存在无效重复,所以需要进行多头去相关性(Cross-Head Decorrelation),让每个head尽可能捕捉到不同类型的特征间的依赖关系,具体做法是在损失函数中加入下式:

$$L_{decorrelation}=\frac{1}{2}(||C||_F^2-||diag(C)||_2^2)$$

  • 其中$C$表示嵌入式特征计算所得的协方差矩阵;$diag$函数表示矩阵的对角化
2.3.3 健康风险预测
  • 借助注意力机制,融合静态特征和已有的嵌入式动态特征表示,此注意力机制的QKV分别是$q_{base}=W_{base}^qf^{\ast}_{base}$,$k_n=W_n^kf_n^{\ast}$,$v_n=f_n^{\ast}$。查询向量q是嵌入式静态特征的映射,关键向量k是嵌入式动态特征的映射,qk的点积能反映静态特征与动态特征之间的相似度。
  • 而相应的打分函数则是$\xi_i=tanh(q_{base}k_i)$,$attention score$ 是$\alpha_{base},\alpha_{1},...,\alpha_{n}=softmax(\xi_{base},\xi_{1},...,\xi_{n})$,最终的嵌入式特征表示是$s=\alpha_{base}f_{base}^{\ast}+\Sigma_{n=1}^N\alpha_if_i^{\ast}$
  • 预测输出为$\hat{y}=\sigma(Ws+b)$,损失函数$L=L_{cross-entropy}+L_{decorrelation}$

2.4 实验结果

在MIMIC-III和ESRD两个大型的真实数据集上进行实验

以预测入院死亡率为目标训练二分类模型

评估指标:AUROC、AUPRC、Min(Sensitivity, Precision)

后缀说明:$DE-$表示未进行多头去相关性;$MC-$表示未考虑特征衰减的情况(存疑);$PE$表示用位置编码取代多通道GRU的情况

多通道时序嵌入 – 捕捉不同特征重要性随时间衰减($\beta_n$)的情况

特征间相关性 - 死于糖尿病(左)/ 非糖尿病(右)的患者

左图(死于糖尿病的患者):更关注glucose(葡萄糖)指标,同时血清蛋白(albumin)、hs-CRP(高敏C反应蛋白)、glucose(葡萄糖)和患者的基础信息之间相关性也较强

相关资源

备注声明:本文资料部分参考自同事小丁的论文分享

往年同期文章