中文标题:基于机器学习预测二尖瓣手术患者红细胞输注
英文标题:Machine learning models to predict red blood cell transfusion in patients undergoing mitral valve surgery
发布平台:Ann Transl Med
Annals of Translational Medicine
发布日期:2021-04-01
引用量(非实时):8
DOI:10.21037/atm-20-7375
作者:Shun Liu, Rong Zhou, Xing-Qiu Xia, He Ren, Le-Ye Wang, Rui-Rui Sang, Mi Jiang, Chun-Chen Yang, Huan Liu, Lai Wei, Rui-Ming Rong
文章类型:journalArticle
品读时间:2023-02-27 9:44
1 文章萃取
1.1 核心观点
- 本文针对698例二尖瓣(或联合三尖瓣)手术进行风险因子挖掘,发现血细胞比容 (<37.81%)、年龄 (>64 岁)、体重 (<59.92 kg)、BMI (<22.56 kg/m 2 )、血红蛋白 (< 122.6 g /L)、手术类型(是否微创)、身高(<160.61 cm)、血小板(>194.12×10 9 /L)、红细胞(<4.08×10 12 /L)、性别(女)为红细胞输注的主要风险。之后本文构建机器学习模型来预测二尖瓣手术期间是否需要输注红细胞,以指导外科医生评估患者的术中输血需求。最终发现在13个机器学习算法中,CatBoost表现最好,对应测试集(204例)的AUC为0.888,即有177名患者得到准备预测。
1.2 综合评价
- 本文逻辑结构清晰,重视风险因子探索方面与实际临床经验的结合
- 本文在方法和算法上比较传统,部分文字和图片存在不够严谨细致的问题
- 缺少与已有模型预测及其结果的横向对比,最好直接点明出本论文的独特性和创新点
1.3 主观评分:⭐⭐⭐⭐
2 精读笔记
2.1 背景介绍
- 心脏手术是用血量最大的外科手术,输血率达40%~90%
- 输血与重症患者的高发病率和死亡率有关,可能增加肾功能衰竭和感染,以及心脏手术后的呼吸系统、循环系统和神经系统并发症风险
- 红细胞输注量一般是基于个人经验确定,因此血液制品经常被浪费,这会加重医务人员的负担,也反映出输血的应用缺乏循证措施
- 心脏手术用血量大,影响输血的因素众多,预测难度高
- 二尖瓣患者同质性好(有一套标准的诊疗流程)、可比性强,适合进行风险因子探索
术后并发症定义(后面未使用)
- 败血症(Sepsis):在两次血培养中出现病原体的并发症
- 急性肾损伤(AKI):术后48h内血清肌酐增加 >= 0.3mg/dL
术前贫血分级:轻度(HB >90 g/L,但低于正常值)、中度(HB =60-89 g/L)、重度(HB =30-59 g/L)和极重度贫血(HB <30 g/L)
瓣膜狭窄或关闭不全的严重程度:由医师根据超声心动图人为确定
2.2 数据与方法
数据说明:
- 在中山医院心内科接受独立二尖瓣或联合三尖瓣手术
- 时间跨度为2019 年 1 月至 12 月
- 根据以下标准排除21名患者:不考虑有心脏手术史(不包括介入治疗)、心房迷宫手术,主动脉瓣手术、心房间隔修复术
- 最终 698 名患者保留了677名,其中166 名 (24.52%) 接受了术中红细胞输注
数据缺失处理:
- 数值型变量缺失使用均值填充
- 类别型变量缺失使用众数填充
统计分析方法:
- 使用t检验确定数值型变量在各组之间是否存在统计学上的显著差异
- 使用卡方检验确定类别型变量在不同组之间是否存在显著的相关性
- Wilcoxon秩和检验确定非正态变量和排序数据在不同组之间的差异性
建模方法:
- 先通过以上提及的统计分析方法进行单变量分析,筛选出存在显著差异的变量(保留检验p值小于0.1的特征),最终保留特征数为79个,点击查看原表
- 再借助多变量逻辑回归进行多变量分析,挖掘变量与结果之间的关系(保留回归系数检验p值小于0.1的特征)
- 之后使用13种机器学习方法进行建模与交叉验证,并使用SHAP进行模型解释性分析
- 统计分析时使用"术中红细胞 (RBC) 输注"作为目标变量;建模使用"是否进行术中红细胞 (RBC) 输注"作为目标变量
最终挖掘出的因子与目标之间的关系如下所示:
Risk factors | β | S.E. | χ2 | P | OR | 95%CI Low | 95%CI Up |
---|---|---|---|---|---|---|---|
BMI | −0.21 | 0.04 | 26.32 | <0.01 | 0.81 | 0.75 | 0.88 |
凝血酶原时间 | 0.03 | 0.02 | 2.88 | 0.09 | 1.04 | 0.99 | 1.08 |
血细胞比容 | −0.17 | 0.04 | 14.8 | <0.01 | 0.84 | 0.77 | 0.92 |
女性 | 1.42 | 0.33 | 18.23 | <0.01 | 4.13 | 2.15 | 7.92 |
存在糖尿病 | 0.9 | 0.44 | 4.07 | 0.04 | 2.45 | 1.03 | 5.86 |
非微创手术 | 1.35 | 0.41 | 10.94 | <0.01 | 3.84 | 1.73 | 8.54 |
存在房颤 | 1.07 | 0.39 | 7.47 | <0.01 | 2.91 | 1.35 | 6.27 |
二尖瓣狭窄1级 | 1.01 | 0.55 | 3.35 | 0.07 | 2.76 | 0.93 | 8.16 |
二尖瓣狭窄2级 | −0.13 | 0.42 | 0.09 | 0.76 | 0.88 | 0.38 | 2.02 |
二尖瓣狭窄3级 | −0.79 | 0.5 | 2.46 | 0.12 | 0.45 | 0.17 | 1.22 |
Doc_2 | −1.60 | 0.85 | 3.55 | 0.06 | 0.2 | 0.04 | 1.07 |
Doc_3 | 0.38 | 0.6 | 0.39 | 0.53 | 1.46 | 0.45 | 4.76 |
Doc_4 | −1.09 | 0.59 | 3.47 | 0.06 | 0.34 | 0.11 | 1.06 |
Doc_5 | −0.46 | 0.63 | 0.53 | 0.47 | 0.63 | 0.18 | 2.18 |
Doc_6 | 0.34 | 0.59 | 0.33 | 0.57 | 1.4 | 0.44 | 4.49 |
Doc_7 | −2.58 | 0.99 | 6.81 | <0.01 | 0.08 | 0.01 | 0.53 |
Doc_8 | −2.38 | 0.91 | 6.78 | <0.01 | 0.09 | 0.02 | 0.56 |
Doc_9 | −2.42 | 0.97 | 6.21 | 0.01 | 0.09 | 0.01 | 0.6 |
Doc_10 | 0.79 | 0.49 | 2.52 | 0.11 | 2.19 | 0.83 | 5.78 |
Doc_11 | 0.96 | 0.61 | 2.51 | 0.11 | 2.61 | 0.8 | 8.58 |
Doc_12 | 0.95 | 0.72 | 1.74 | 0.19 | 2.57 | 0.63 | 10.5 |
Doc_13 | −1.19 | 0.64 | 3.46 | 0.06 | 0.3 | 0.09 | 1.07 |
Doc_14 | −1.52 | 1.02 | 2.22 | 0.14 | 0.22 | 0.03 | 1.61 |
Doc_15 | −2.71 | 0.84 | 10.31 | <0.01 | 0.07 | 0.01 | 0.35 |
Doc_16 | −0.35 | 0.74 | 0.23 | 0.63 | 0.7 | 0.17 | 2.98 |
伴三尖瓣成形术 | −0.71 | 0.36 | 3.87 | 0.05 | 0.49 | 0.24 | 1 |
术前贫血1级 | 1.45 | 0.44 | 10.77 | <0.01 | 4.27 | 1.79 | 10.14 |
术前贫血2级 | 3.2 | 1.33 | 5.76 | 0.02 | 24.43 | 1.8 | 331.89 |
年龄65–74 | 1.7 | 0.3 | 32.82 | <0.01 | 5.49 | 3.07 | 9.83 |
年龄>75 | 1.62 | 0.48 | 11.64 | <0.01 | 5.07 | 2 | 12.89 |
因子探索总结:血细胞比容(HCT)较低、体重指数 (BMI) 较低、凝血酶原时间(PT)较长的患者、女性、糖尿病患者、接受常规手术的患者、心房颤动患者、严重二尖瓣狭窄、术前贫血和老年患者需要输注 RBC 的可能性增加
2.3 结果分析与评价
模型评价方法:
- 数据集随机分为训练集(70%)和测试集(30%)
- 训练集以使用 10 折交叉验证构建模型
- 测试集用于验证模型的ROC 曲线下面积 (AUC)
次序 | Model | Accuracy | AUC | Recall | Prec. | F1 |
---|---|---|---|---|---|---|
1 | CatBoost classifier | 0.835 | 0.888 | 0.536 | 0.731 | 0.609 |
2 | Light gradient boosting machine | 0.844 | 0.887 | 0.579 | 0.732 | 0.64 |
3 | Extreme gradient boosting | 0.844 | 0.874 | 0.552 | 0.745 | 0.629 |
4 | Gradient boosting classifier | 0.823 | 0.86 | 0.536 | 0.706 | 0.594 |
5 | Extra trees classifier | 0.808 | 0.857 | 0.433 | 0.706 | 0.521 |
6 | Logistic regression | 0.823 | 0.856 | 0.571 | 0.689 | 0.609 |
7 | Linear discriminant analysis | 0.82 | 0.851 | 0.588 | 0.662 | 0.611 |
8 | Random forest classifier | 0.816 | 0.835 | 0.408 | 0.741 | 0.515 |
9 | Ada boost classifier | 0.791 | 0.812 | 0.536 | 0.603 | 0.554 |
10 | Naive bayes | 0.702 | 0.803 | 0.821 | 0.449 | 0.578 |
11 | K neighbors classifier | 0.787 | 0.751 | 0.328 | 0.563 | 0.408 |
12 | Decision tree classifier | 0.768 | 0.681 | 0.51 | 0.525 | 0.506 |
13 | Quadratic discriminant analysis | 0.435 | 0.613 | 0.885 | 0.313 | 0.444 |
CatBoost 模型表现最佳,AUC 为 0.888(95% CI:0.845–0.909)
SHAP 值分析:
- 特征重要性最高的是血细胞比容(HCT)、年龄、医生id、体重、BMI、身高、贫血、手术类型、血红蛋白(HB)、红细胞(RBC)、三尖瓣(Tricuspid_OPEN?)、 血小板(PLT)、性别、ASA评分、丙氨酸转氨酶(ALT)、天冬氨酸转氨酶(AST)、二尖瓣(Mitral_OPEN)、凝血酶原时间(PT)、国际标准化比值(INR)、血清肌酐(CR)
- 不同医师之间输血倾向性存在一定差异,是值得关注的重要指标
- SHAP值大于0的情况意味着外科医师更有可能为患者输血
- 12号、8号、7号医生对应的输血可能性较高,可考虑通过模型进行输血干预
- 已挖掘风险因子(部分)与红细胞输注之间存在较强的相关性
- 年龄和血小板(PLT)与术中红细胞 (RBC) 输注呈显著正相关
- 血细胞比容、体重、血红蛋白、红细胞、身高、BMI等均存在显著负相关
- 根据临床观察,研究员认为血细胞比容应保持在 30% 左右,血红蛋白浓度应保持在 10 g/dL;而心脏手术的特殊性(术中体外循环需要对患者血液进行肝素化处理,手术时间长),本文模型则通过建模分析,在考虑了术中肝素和手术持续时间的情况下,发现血红蛋白含量的危险边界为 12 g/dL,血细胞比容为 38%
风险因子探索及其阈值(SHAP值等于0时对应的特征取值):
血小板与红细胞输注的关系:
- 横轴表示血小板计数,纵轴表示模型的预测输出值
- 当血小板小于194.5×10^9 /L时,血小板与红细胞输注呈正相关(即血小板越多,越不需要输血)
- 当血小板大于203.5×10 9 /L时,血小板与红细胞输注呈负相关;这可能是因为急性感染、失血或溶血引起的血小板浓度升高,而并不是患者的血小板数量增多(并没有解释中间的异常高峰,可能是样本量过少导致的?)
其他结论:
- 女性 (36.2%, 1.06±1.62 U) 更有可能接受输血,术中更容易出现贫血
- 与传统手术组(30.2%)相比,微创手术(12.5%)可显着减少所需血液量
- 三尖瓣反流可导致贫血、血小板减少、凝血功能障碍、肝功能衰竭和其他并发症