中文标题:基于电子病历的嵌入式个性临床特征表示
英文标题:ConCare: Personalized Clinical Feature Embedding via Capturing the Healthcare Context
发布平台:AAAI
Proceedings of the AAAI Conference on Artificial Intelligence
发布日期:2020-04-03
引用量(非实时):60
DOI:10.1609/aaai.v34i01.5428
作者:Liantao Ma, Chaohe Zhang, Yasha Wang, Wenjie Ruan, Jiangtao Wang, Wen Tang, Xinyu Ma, Xin Gao, Junyi Gao
关键字: #ConCare #Attention #时间序列 #embeding #EMR
文章类型:journalArticle
品读时间:2021-12-22 10:31
1 文章萃取
1.1 核心观点
在本论文中,作者提出了一种叫做ConCare的框架,用于处理不规则EMR数据(电子病历数据),并基于多头自注意力机制,从数据中提取特征间(静态信息和动态时序特征)的相互关系来进行病人的个性化健康预测。最终结果也得到了相关医学专家和文献的验证。
1.2 综合评价
1.3 主观评分:⭐⭐⭐⭐⭐
2 精读笔记
2.1 数据
医疗数据包括2个部分:患者的基础信息和EMR的动态时序信息
目标变量:(特定疾病或状态下的)患者未来48h的死亡率/患病率
2.2 时序的重要性
血白蛋白的持续下降预示着患者可能营养不良或出现低蛋白血症
血超敏C反应蛋白的突然上升预示着身体出现急性炎症
对有心脑血管(CVD)病史的人来说,血压值的高低极大影响生存
对于血红蛋白(HGB)下降的病人来说,可能预示消化道出血等严重症状
2.3 ConCare框架:捕捉特征关系
PART 1:多通道时序嵌入
- 每个特征构建自己的GRU模型
- 使用时间感知注意力机制聚合多个时点的隐状态
PART 2: 基于特征间关系进行嵌入重构
- 多头自注意力机制
- 多头信息去相关性
PART 3:健康风险预测
- 静态 & 动态特征聚合
- 预测健康情况
2.3.1 多通道时序嵌入
- 每个特征构成一条时序,其中第$n$条时序是$(r_{n,1},...,r_{n,T})$
- 每个时序单独构建GRU模型,$h_{n,1},...,h_{n,T}=GRU_n(r_{n,1},...,r_{n,T})$,其中$h$表示GRU模型中每个特征的隐藏状态
- 借助Time-aware注意力机制捕捉时点的重要性,此注意力机制的QKV分别是$q_{n,T}=W_n^qh_{n,T}$,$k_{n,t}=W_n^qh_{n,t}$,$v_{n,t}=h_{n,t}$。这里的查询向量q是由最终T时刻的特征隐藏状态映射得到的,关键向量k则是每个t时刻的特征隐藏状态的映射。而相应的打分函数则是:
$$\xi_{nt}=tanh(\frac{q_{nT}k_{nt}}{\beta_nlog(e+(1-\sigma(q_{nT}k_{nt}))\Delta t)})$$
- 其中$\beta_n$是一个可学习参数,表示特征的衰减程度;$q_{nT}k_{nt}$是两个向量的点积,能反映t时刻的特征对最终T时刻的影响程度;$\Delta t$是时刻t距离时刻T的时间间隔
- 打分函数值经过softmax转换,即可得到attention score,也就是每一个时刻的注意力权重,$\alpha_{n1},\alpha_{n2},...,\alpha_{nT}=softmax(\xi_{n1},\xi_{n2},...,\xi_{nT})$
- 最终的嵌入式特征表示$f_n=\Sigma_{t=1}^T\alpha_{nt}h_{nt}$
2.3.2 基于特征间关系进行表示重构
- 将上一节所得的嵌入式特征表示及静态特征作为输入,通过多头自注意力机制生成一个更好的特征表示。此阶段得到的attention score能表示特征间的依赖关系。最终输出结果为重构后的嵌入式特征表示$f^{\ast}$
- 由于多头自注意力机制中的多个head所学习到的信心可能存在无效重复,所以需要进行多头去相关性(Cross-Head Decorrelation),让每个head尽可能捕捉到不同类型的特征间的依赖关系,具体做法是在损失函数中加入下式:
$$L_{decorrelation}=\frac{1}{2}(||C||_F^2-||diag(C)||_2^2)$$
- 其中$C$表示嵌入式特征计算所得的协方差矩阵;$diag$函数表示矩阵的对角化
2.3.3 健康风险预测
- 借助注意力机制,融合静态特征和已有的嵌入式动态特征表示,此注意力机制的QKV分别是$q_{base}=W_{base}^qf^{\ast}_{base}$,$k_n=W_n^kf_n^{\ast}$,$v_n=f_n^{\ast}$。查询向量q是嵌入式静态特征的映射,关键向量k是嵌入式动态特征的映射,qk的点积能反映静态特征与动态特征之间的相似度。
- 而相应的打分函数则是$\xi_i=tanh(q_{base}k_i)$,$attention score$ 是$\alpha_{base},\alpha_{1},...,\alpha_{n}=softmax(\xi_{base},\xi_{1},...,\xi_{n})$,最终的嵌入式特征表示是$s=\alpha_{base}f_{base}^{\ast}+\Sigma_{n=1}^N\alpha_if_i^{\ast}$
- 预测输出为$\hat{y}=\sigma(Ws+b)$,损失函数$L=L_{cross-entropy}+L_{decorrelation}$
2.4 实验结果
在MIMIC-III和ESRD两个大型的真实数据集上进行实验
以预测入院死亡率为目标训练二分类模型
评估指标:AUROC、AUPRC、Min(Sensitivity, Precision)
后缀说明:$DE-$表示未进行多头去相关性;$MC-$表示未考虑特征衰减的情况(存疑);$PE$表示用位置编码取代多通道GRU的情况
多通道时序嵌入 – 捕捉不同特征重要性随时间衰减($\beta_n$)的情况
特征间相关性 - 死于糖尿病(左)/ 非糖尿病(右)的患者
左图(死于糖尿病的患者):更关注glucose(葡萄糖)指标,同时血清蛋白(albumin)、hs-CRP(高敏C反应蛋白)、glucose(葡萄糖)和患者的基础信息之间相关性也较强
相关资源
- 论文地址
- 代码地址
- 本地文件地址:2020_ConCare_Ma et al.pdf
- 本地Zotero地址:2020_ConCare_Ma et al.pdf
备注声明:本文资料部分参考自同事小丁的论文分享