NEJM医学前沿24年4季度文章集锦

仅搜集收录了部分个人感兴趣的文章,并进行简单记录

1 概念科普

1.1 大语言模型和病历质量下降

2024-11-01 文章链接

  1. LLM 可能会进一步降低病历中的信息质量。高质量记录绝不是对患者诊疗过程的一般文字转录,而是包含了医师推理、患者价值观以及病历中其他地方可能没有体现的临床背景。
  2. 使用 LLM 可能会削弱临床推理能力。有观点认为转录诊疗过程和总结病历是相对低风险的 LLM 应用方式,但持这一观点是因为误解了这些任务的认知复杂性。书写记录既能引发临床医师的推理,又能反映推理的结果。
  3. 走错道路可能会阻碍未来 AI 模型发展。随着宝贵的互联网文本资源被 AI 生成的空洞文本所污染,医学领域也可能面临困扰更广泛机器学习领域的同样问题。未来模型的输出结果会趋向于再现原始数据集的平均内容,从而失去广度和深度
  4. 整合 LLM 可能会固化 EHR 的现状,而这样是不妥的。供应商在其系统中应用 LLM 时,并没有经济利益激励其远离低信息量、繁琐并且从根本上反人类的系统。与采用 POMR 一样,这一领域的变革应由患者和医师主导

POMR:以问题为导向的医疗记录

除虚构信息外,LLM 生成的电子病历文本存在的其他风险:

风险 描述 举例
病历更加杂乱 病历中的文本量不断增加,使人类阅读起来更加不便,这促使人们使用LLM进行内容总结。LLM记录有可能增加病历臃肿程度,从而增加对病历内容总结的需求,如此循环往复,临床医师与同事的评估结果越离越远。 由于生成LLM记录的过程非常简单,因此团队中的医学生、实习医师、资深住院医师和医师都会提供患者诊疗记录,而这些记录对临床情况的描述会略有差别。由于没有时间阅读关于每位患者的20份记录,因此周末值班医师会要求一份由LLM生成的总结。
信息密度降低 临床医师的认知处理过程包含在医疗记录的结构和内容中。作为统计机器,LLM倾向于输出可反映输入数据集平均值的结果。目前的LLM可能会输出臃肿的结果,看似权威,却缺乏敏锐洞察力。 一份由LLM生成的心内科会诊记录包含多段关于年轻人胸痛鉴别诊断的详细讨论,而心内科医师的寥寥几行记录即可清楚说明团队的评估结果和治疗方案。
说服和自动化偏倚 LLM可生成非常有说服力的结果,而且说服力超过了其准备度本应具有的说服力,进而助长“自动化偏倚”,导致人类对机器的结果产生过度信任。 会诊团队会对治疗方案提出谨慎且初步的建议。LLM生成的会诊记录总结利用了模型内置的关于对相关问题的知识,并传达出自信的语气。主要治疗团队在未与会诊团队进一步讨论的情况下,完全执行LLM提出的方案。
增加核实时间 LLM文本的性质可能会增加临床医师负担,因为他们必须核实和编辑LLM输出结果。在病历总结等任务中,这一要求尤其会造成问题,因为在这些任务中,错误可能过于细微,难以识别,也难以调查。 LLM会生成一份清单,列出患者之前服用过的五种未能控制癫痫发作的抗癫痫药。由于医师之前遇到过LLM在该疾病上虚构信息的情况,因此又花了15分钟手动查看以前的神经内科记录,以核实准确性。
模型崩溃 根据LLM生成的文本反复训练未来的LLM,有可能出现“模型崩溃”现象,即未来模型的输出结果失去广度和细节,越来越多地反映原始LLM数据集的内容。这一过程可能会导致自我强化的反馈循环,并使模型变得不太有用。 一家医院多年来一直使用可生成记录的LLM,并使用医院病历训练新LLM,目的是由新LLM提出治疗建议。新LLM倾向于建议最常用的治疗方案,但在处理罕见病例的细节时却

往年同期文章