机器学习在预测手术中低血氧的可解释性探究

中文标题：机器学习在预测手术中低血氧的可解释性探究
英文标题：Explainable machine-learning predictions for the prevention of hypoxaemia during surgery
发布平台：
发布日期：2018-10-10
引用量（非实时）：873
- 1 文章萃取
- 2 精读笔记
相关资源

中文标题：机器学习在预测手术中低血氧的可解释性探究

英文标题：Explainable machine-learning predictions for the prevention of hypoxaemia during surgery

发布平台：Nat Biomed Eng

Nature Biomedical Engineering

发布日期：2018-10-10

引用量（非实时）：873

DOI：10.1038/s41551-018-0304-0

作者：Scott M. Lundberg, Bala Nair, Monica S. Vavilala, Mayumi Horibe, Michael J. Eisses, Trevor Adams, David E. Liston, Daniel King-Wai Low, Shu-Fang Newman, Jerry Kim, Su-In Lee

关键字： #低血氧 #可解释 #XGBoost #SHAP

文章类型：journalArticle

品读时间：2023-02-10 11:25

1 文章萃取

1.1 核心观点

本文提出了一个基于机器学习的系统Prescience，在全身麻醉期间进行实时低氧血症的预测，并提供风险因素的解释。

该系统使用了5万多例手术的电子病历进行训练，特征既涵盖了与患者状态、手术进程、病历文本的静态数据，也从时序数据中进行大量特征的抽取。

最终的XGboost模型在术前低氧血症AUC达到了0.79，术中实时预测AUC达到了0.90。本系统提出了SHAP分析对黑盒模型中特征进行解释。

特征解释结果与文献和麻醉学的先验知识大体一致，作为辅助工具也显著提高了麻醉师预测低氧血症的能力。该系统能全面客观地分析某些患者或手术引起的风险变化，帮助提高临床对麻醉护理期间低氧血症风险的理解

1.2 综合评价

Prescience 很好地平衡了高精度复杂模型与可解释性之间的关系

本文整体逻辑清晰明确，详略得当，分析角度全面，图表内容丰富

基于本论文开源的shap工具是目前最流行的模型可解释库

部分模型所得结论没有在医学角度进行更完备的论证，当然也算是为临床提供了新思路；实时预测的提前量较短（5分钟），更早的提前量能增加容错性

1.3 主观评分：⭐⭐⭐⭐⭐

2 精读笔记

2.1 背景介绍

研究显示，围手术期死亡率为0.4 % ~ 0.8 %，并发症发生率为3 % ~ 17 %。而更重要的是这些并发症中有一半是可以预防的

低氧血症的定义：

血氧不饱和：在接下来的5分钟内，血氧饱和度从≥95%下降到≤92%
血氧饱和：在过去10分钟和接下来10分钟，血氧饱和度都保持≥95%

低氧血症的局限性：在全身麻醉和手术期间对患者造成严重伤害——心脏骤停、心律失常、术后感染和伤口愈合障碍、认知功能下降和谵妄以及脑缺血相关

低氧血症的传统预防方法：通过脉搏血氧仪的实时血氧监测，只允许麻醉学采取反应性行动，以最大限度地减少发生后低氧血症发作的持续时间。电子病历数据的决策支持系统也已经被证明是有效的

传统预防方法VS机器学习推断

传统预防方法本质上仍然主要是反应式的，而不是预测式的
复杂机器学习的准确度高于简单机器学习，但可解释性不足。这种可解释性的不足限制了深度学习和集成模型等方法在医疗决策支持中的使用。

本文基于集成模型的机器学习提出一种名为Prescience的方法，在构建复杂模型的同时，尽量提供风险因子的直观解释表达，效果如下：

图中黑色竖线左侧为患者历史数据，右侧为模型预测区域
通过输入患者的动态时序数据和静态数据后，模型能进行风险的预测
模型输出结果表示，该患者出现低血氧症的相对风险比是2.4
图中的公式则对模型预测过程进行可解释描述：其中过高的BMI指数导致相对风险增大了1.9倍；而过低的潮气量(tidal volume)导致相对风险增大了1.4倍；相对正常的脉搏(pulse)使得相对风险减小了25%；其他因素综合来看导致相对风险增大了1.2倍。所以患者最终的相对风险比为2.4

2.2 数据与方法

本文建模所需数据主要来源于某医院的麻醉信息管理系统（AIMS）：

数据的时间跨度是2012 年 5 月至 2014 年 6 月
该系统集成了大量高保真的实时数据：比如来自患者监护仪和麻醉机的时序数据、推注和输注药物、输入和输出液体总量、实验室结果、麻醉技术和管理的模板化和文本描述
除此之外，还要很多患者相关的静态数据：如美国麻醉协会的ASA体格状况分级、手术过程和诊断代码；患者的人口统计学信息（如年龄、性别、吸烟状况、身高和体重）组成
排除了心脏移植、肺移植、气管切开术和冠状动脉搭桥术等手术病例，因为其中的SpO2和其他血流动力学参数会受到非生理测量（如体外循环）的显著影响

输入数据的分布（部分）：

特征提取方法：

患者静态数据、手术步骤、术前说明都取最近值
针对时序数据，则主要计算指数移动平均（EMA）和指数移动方差（EMV）。EMA和EMV提取的特征都是在加权样本上计算的，其中权重衰减的半衰期主要包括6秒、1分钟和5分钟（捕捉不同时间尺度的信息）
删除缺失值过多的部分特征后，最终初始预测场景涉及3,797个特征，而术中实时预测场景涉及3,905个特征（值得注意的是，两个场景中有超过2,000个特征来自文本数据中的单词表示）

建模场景与数据量：

本文针对两类场景进行预测建模：初始预测（任务A）与实时预测（任务B）
初始预测：在手术开始时根据静态特征进行手术过程中发生低氧血症的风险预测；实时预测：在手术期间内根据动态时序数据和静态数据抽取特征，并对未来5分钟内是否发生低氧血症进行持续预测
任务A的训练集：验证集：测试集=42,420：5,649：5,057（个手术案例）；任务B的的训练集：验证集：测试集=8,087,476：1,053,629：963,674（个手术期时间点）；不考虑数据缺失的插补

建模效果对比：

建模方法	初始预测精度（AUC）	实时预测精度（AUC）
GBM trees	0.79	0.90
Linear lasso	0.78	0.86
Random	0.5	0.5

综合建模效果对比可知，梯度提升树模型的效果是最好的，又考虑到在大规模数据上的高性能实现，本文选择XgBoost作为最终建模方法。

建模参数说明：

参数名称	初始场景设定值	实时场景设定值
学习率/步长 eta ($\eta$)	0.1	0.2
树的数量 n_estimators	4000	1242
数据随机抽样比例 subsamoke	0.5	0.5
最大树深度 max_depth	4	6
树分支的最小权重 min_child_weight	1	10

模型可解释性：使用SHAP（方法已开源）计算特征的Shapley值（核心思想是通过观察特征变化对模型输出的影响，判断出哪些输入对机器学习的风险有贡献）

2.3 实验结论与分析

Prescience 提高了麻醉师预测低氧血症的能力

上图中，左侧表示初始预测场景，右侧表示实时预测场景
上图中，绿色表示麻醉师的预测表现；蓝色表示麻醉师在Prescience辅助下的预测表现；紫色表示纯Prescience的预测表示
ROC曲线越接近左上意味着预测效果越好。由此可知，麻醉师在Prescience辅助下，针对低氧血症的预测能力有显著提高

Prescience 在预测风险的同时会给出风险因子的贡献性与趋势

上图中，紫色表示导致风险增加的特征，绿色表示导致风险降低的特征
图A对应某一个时刻的预测风险因子的贡献度，可以发现该患者诱发低氧血症的主要风险来自BMI（Height/weight）和潮气量（Tidal volume）
图B对应患者在段时间内的风险因子贡献分布的趋势，可以发现在12:40至12:45期间导致低氧血症风险增加的主要原因来自特征SpO2（动脉血氧饱和度）

麻醉师人为评估的特征重要性与模型自动给出的重要性存在一致性

上图中，图A表示初始预测场景，图B表示术中实时预测场景
图中左侧为特征描述；蓝色区域为XGBoost模型训练得到的特征重要性；数字列为麻醉师人为给定的特征重要性排名；绿色为根据麻醉师行为建模得到的特征重要性（麻醉师行为相关的数据量较少，因为进行了自助法抽样）
对于大部分特征，模型给出的特征重要性和人为排序还是比较一致的

Prescience 给出的单独特征解释能辅助发现重要的临床关系

上图中，灰色区域表示特征的分布情况，蓝线为特征的不同分布区域对应的低氧血症的相对风险。可以发现随着BMI的增加，低氧血症风险也会显著增长
除此之外可以发现，潮气量低于0.6时低氧血症风险会开始增长，这可能与通气不足有关系；呼气末 CO 2低于 35 mmHg 时，术中低氧血症的风险增加；无论其他特征如何，低于 40% 的 FiO 2与术中低氧血症独立相关
Prescience量化了特征与风险的关联，为医师提供了更具临床意义的解释

其他不足与局限：

术前数据存在丰富的空间，机器学习方法也还能继续优化
没有针对特定类型的病种和麻醉阶段进行更深入的分析
针对低氧血症相关的临床诊断不够全面细致（数据维度缺失）

个人笔记

Digital Garden | 王半仙