仅搜集收录了部分个人感兴趣的文章,并进行简单记录
1 概念科普
1.1 大语言模型和病历质量下降
2024-11-01 文章链接
- LLM 可能会进一步降低病历中的信息质量。高质量记录绝不是对患者诊疗过程的一般文字转录,而是包含了医师推理、患者价值观以及病历中其他地方可能没有体现的临床背景。
- 使用 LLM 可能会削弱临床推理能力。有观点认为转录诊疗过程和总结病历是相对低风险的 LLM 应用方式,但持这一观点是因为误解了这些任务的认知复杂性。书写记录既能引发临床医师的推理,又能反映推理的结果。
- 走错道路可能会阻碍未来 AI 模型发展。随着宝贵的互联网文本资源被 AI 生成的空洞文本所污染,医学领域也可能面临困扰更广泛机器学习领域的同样问题。未来模型的输出结果会趋向于再现原始数据集的平均内容,从而失去广度和深度
- 整合 LLM 可能会固化 EHR 的现状,而这样是不妥的。供应商在其系统中应用 LLM 时,并没有经济利益激励其远离低信息量、繁琐并且从根本上反人类的系统。与采用 POMR 一样,这一领域的变革应由患者和医师主导
POMR:以问题为导向的医疗记录
除虚构信息外,LLM 生成的电子病历文本存在的其他风险:
风险 | 描述 | 举例 |
---|---|---|
病历更加杂乱 | 病历中的文本量不断增加,使人类阅读起来更加不便,这促使人们使用LLM进行内容总结。LLM记录有可能增加病历臃肿程度,从而增加对病历内容总结的需求,如此循环往复,临床医师与同事的评估结果越离越远。 | 由于生成LLM记录的过程非常简单,因此团队中的医学生、实习医师、资深住院医师和医师都会提供患者诊疗记录,而这些记录对临床情况的描述会略有差别。由于没有时间阅读关于每位患者的20份记录,因此周末值班医师会要求一份由LLM生成的总结。 |
信息密度降低 | 临床医师的认知处理过程包含在医疗记录的结构和内容中。作为统计机器,LLM倾向于输出可反映输入数据集平均值的结果。目前的LLM可能会输出臃肿的结果,看似权威,却缺乏敏锐洞察力。 | 一份由LLM生成的心内科会诊记录包含多段关于年轻人胸痛鉴别诊断的详细讨论,而心内科医师的寥寥几行记录即可清楚说明团队的评估结果和治疗方案。 |
说服和自动化偏倚 | LLM可生成非常有说服力的结果,而且说服力超过了其准备度本应具有的说服力,进而助长“自动化偏倚”,导致人类对机器的结果产生过度信任。 | 会诊团队会对治疗方案提出谨慎且初步的建议。LLM生成的会诊记录总结利用了模型内置的关于对相关问题的知识,并传达出自信的语气。主要治疗团队在未与会诊团队进一步讨论的情况下,完全执行LLM提出的方案。 |
增加核实时间 | LLM文本的性质可能会增加临床医师负担,因为他们必须核实和编辑LLM输出结果。在病历总结等任务中,这一要求尤其会造成问题,因为在这些任务中,错误可能过于细微,难以识别,也难以调查。 | LLM会生成一份清单,列出患者之前服用过的五种未能控制癫痫发作的抗癫痫药。由于医师之前遇到过LLM在该疾病上虚构信息的情况,因此又花了15分钟手动查看以前的神经内科记录,以核实准确性。 |
模型崩溃 | 根据LLM生成的文本反复训练未来的LLM,有可能出现“模型崩溃”现象,即未来模型的输出结果失去广度和细节,越来越多地反映原始LLM数据集的内容。这一过程可能会导致自我强化的反馈循环,并使模型变得不太有用。 | 一家医院多年来一直使用可生成记录的LLM,并使用医院病历训练新LLM,目的是由新LLM提出治疗建议。新LLM倾向于建议最常用的治疗方案,但在处理罕见病例的细节时却 |
1.2 2024 盘点:医学 AI 大模型,从通用视觉到医疗影像
2024年12月30日 16:50 文章链接
医疗基础模型
- Med-PaLM Multimodal 通用型生物医学人工智能系统:灵活编码和解释包括临床语言、医学影像和基因组数据在内的多模态生物医学信息。它基于全新的多模态基准MultiMedBench 测试,在 14 项任务中均达到或超越当前先进模型水平,并在胸部 X 光报告生成任务中获得 40.5% 的临床医生偏好率
- BiomedParse 生物医学图像分析的基础模型:在九种成像模式下同时完成分割、检测和识别任务。通过引入联合学习策略,提升了单项任务的准确性,还实现了对分割对象的文本描述
- BiomedGPT 开源轻量级通用生物医学视觉-语言基础模型:在25项实验中有16项达到先进水平,并在人类评估中表现出色,总结能力接近人类专家
- Prov-GigaPath 全片病理基础模型(模型开源):使用了来自 171,189 张全片病理图像、涵盖31种主要组织类型的 1.3 亿张图像切片进行预训练。该模型实现了超长输入的上下文学习,并在 26 项数字病理学任务中显著超越现有方法
- TransUNet 医疗图像分割模型:在多器官轮廓精准分割方面表现优异,尤其在CT等高分辨率医学影像中,显著提升了分割精度
- Swin-UMamba 多模态分割模型:跨越多种模态(如MRI、内镜图像、显微镜图像等)实现精确分割
- PneumoLLM 基础 LLMs 的诊断微调模型:将文本分支替换为分类头以减少可学习参数量,显著降低了大语言模型在诊断应用中的迁移难度
- MA-SAM 图像分割框架:通过微调和3D适配器提取三维信息,实现了SAM(Segment Anything Model)在容积和视频医疗数据上的适应
- PathoTune 多模态提示学习框架:通过多模态提示调优,有效弥补了基础模型与病理任务之间的差距,显著提高了对病理任务的适应性。该框架同时利用视觉和文本提示,在多个数据集上表现优于单模态提示调优方法,超越了传统的病理基础模型
医疗专用模型
- 开源的专用数据集:X射线模态数据(35万余张胸部X光片)、Medical-CXR-VQA详细临床问题数据集(基于空间关系图、语义关系图和隐式关系图的视觉问答)、腹部CT数据集 AbdomenAtlas(人工智能辅助,67.3万个高质量标注)
- MedLAM 3D医学图像定位基础模型:在统一解剖映射(UAM)和多尺度相似性(MSS)两个任务上训练而成,使用了超过1.4万张CT扫描。能够大幅降低SAM模型对3D医学图像点位信息的人工标注需求
- USFM 超声图像的通用基础模型:基于超过200万张多器官超声图像进行训练,采用空间-频率双重掩码建模方法处理低质量图像,在分割、分类和图像增强等多个任务中表现出色
- PathoDuet 框架:针对病理切片图像的特点,设计了跨尺度定位和跨染色迁移两个预训练任务,有效利用了图像放大倍数和染色方式之间的关联性。PathoDuet 在结直肠癌分型和免疫组化标记物表达预测等任务中优于现有方法
- 病理基础模型UNI:在超过100万张诊断切片上进行了大规模无监督学习,并在34个任务中展现了卓越的性能。该模型支持分辨率无关分类、少样本学习等
- CHIEF 模型:采用无监督和弱监督相结合的双预训练策略,分别用于提取局部和全局的图像特征。在 19,491张图像上的测试表明,CHIEF 在癌细胞检测、肿瘤来源识别、分子特征表征和预后预测等任务中,显著优于现有的深度学习方法
- 计算病理学基础模型 Virchow:在多个癌症类型中实现高精度检测
- MUSK 多模态模型:在5000万张病理图像和10亿个病理相关文本标记上进行预训练。该模型在23个病理图像的基准测试中表现优异,涵盖跨模态检索、视觉问答和图像分类等任务
- 掩码医学图像建模(MedIM)框架:利用放射学报告引导掩码生成过程,并设计了基于知识驱动和句子驱动的双重掩码策略,优于传统的掩码图像建模(MIM)预训练方法
- PI-RADS评分模型:融入前列腺影像临床指南(PICG)而无需额外标注和网络参数
- Universal Model 医疗影像模型:能够灵活应用于多个数据集,识别新的器官和肿瘤类别
- FastGlioma:用于胶质瘤术中检测的视觉基础模型,通过快速分析新鲜手术组织实现肿瘤浸润的精准评估,在 220 名患者测试中达到92.1±0.9% 的 AUC
- MedSAM 医学图像分割基础模型:在SAM模型的基础上,使用超过150万的图片和分割掩码进行训练,包含了10种图像模态以及30种癌症类别,能对多种模态的医学图像进行高性能分割
- 视觉症状引导提示学习框架 ViP:通过CLIP实现大规模视觉语言模型(VLMs)中的知识迁移
医疗任务与应用:
- BrainSegFounder 模型:脑部MRI图像的高分割精度,显著降低了标注数据需求
- RudolfV 模型:将染色方式和组织切片类别等病理学专家知识整合进自监督学习过程,解决了当前病理学人工智能模型在泛化能力、应用多样性和处理罕见疾病方面遇到的困难
- 眼科疾病基础模型 VisionFM:在多个眼科疾病诊断任务上超过基线方法,准确率接近中级眼科医师
- MaCo:引入掩蔽对比学习,同时实现了胸部X光图像的细粒度理解和零样本学习;在分类、分割、检测等多个任务中超越了10种现有的最先进方法
- PathChat:专为人类病理学设计的视觉-语言通用AI助手
- EchoCLIP:能够分析心脏超声图像并理解专家的诊断解读
- 医疗问答语料库:多语言医学语料库 MMedC、多语言医学多选问答基准MMedBench
- Med-UniC框架:整合英语和西班牙语医学数据,减少语言差异引起的偏差
医疗基础模型开源平台 OpenMEDLab:致力于提供一个集合多模态医学基础模型的创新解决方案,本文提到的多数工作的论文和官方代码等信息已经收录到该平台
2 模型预测
2.1 中国眼科大模型,诊断准确性媲美中级医师
2024年12月24日 11:31 文章链接
VisionFM:用于通用眼科人工智能的多模式多任务视觉基础模型
- 应用50多万人的340万张图像进行预训练,涵盖多种眼科疾病、成像模式和设备以及临床场景的眼科人工智能基础模型
- VisionFM基于八种模式进行了预训练,并在由53个公共数据集和12个私人数据集组成的眼科数据库上对多种应用进行了测试,包括疾病筛查和检测、预后和预测以及病变和解剖结构图像分割
模型表现:
- 在内部验证中,其在八种疾病类型和五种成像模式下的接收者操作特征曲线下平均面积(AUROC)达到了0.950(95% CI,0.941~0.959)。在外部验证中,在基于眼底的糖尿病视网膜病变识别中,VisionFM的AUROC达到了0.945(95% CI,0.934~0.956),在基于光学相干断层扫描的年龄相关性黄斑变性识别中,其AUROC达到了0.974(95% CI,0.966~0.983)
- 在基于眼底照片诊断12种眼部疾病方面,VisionFM与中级眼科医师的准确性,结果显示二者的准确性接近;VisionFM还可基于眼底照片直接预测青光眼进展和颅内肿瘤
- VisionFM使用其在预训练期间从未接触过的成像模式对糖尿病视网膜病变进行了准确分级,AUROC为0.935(95% CI,0.902~0.964)