医药类数据资源

MIMIC 重症数据库

MIMIC 是一个重症医学数据库,全称是 Medical Information Mart for Intensive Care

以最新版 MIMIC-IV 为例(截止于 20211116),此数据主要来自两个住院数据库系统:定制的医院电子病历系统 (EHR)和 ICU 自身的临床信息系统

MIMIC-IV 创建过程(最终可导出为 csv 文件)

  1. 采集:从各医院数据库中提取了进入 BIDMC 急诊科或重症监护病房的患者数据,创建一个主患者列表 (master patient list),其中包含从 2008 年到 2019 年入住 ICU 或急诊科的患者的所有病案号。然后过滤所有源表,仅保留与主患者列表中的患者相关的数据
  2. 数据准备:先对数据进行重组,包括去规范化 (denormalization)、剔除审计数据等。需要注意的是,此过程没有进行数据清理,因此可以确保反映了真实的临床数据集
  3. 数据脱敏:用随机编码替换患者标识符、住院标识符与入住 ICU 标识符;对每位患者分配一个随机的日期偏移,但保证同一患者内部时间数据的相对关系;所有超过 89 岁的患者的年龄都固定为 91岁

MIMIC-IV 数据描述

  1. Core 模块:包含患者的人口统计数据、住院记录以及住院期间的病房记录
  2. Hosp 模块:包含从医院电子病历中提取的信息(比如供应单、药物使用、账单等信息),以及部分外来信息(比如实验室化验信息等)
  3. Icu 模块:包含由 BIDMC: MetaVision (iMDSoft)提供的临床信息,比如静脉和液体输入、患者出入、手术过程等数据,以及时序型或图表型的信息

本数据的最新地址(截止于20211116) 本数据的 Github地址

HCUP-NIS 护理数据库

医疗成本和利用项目-美国国家住院患者样本库(Healthcare Cost and Utilization Project National Inpatient Sample,HCUP)是国最大的纵向医疗护理数据收集项目,旨在开展和转化研究、为决策制定提供信息并改善医疗服务,自 1988 年开始提供数据,共包含美国国家住院患者样本库(National Inpatient Sample,NIS)、美国国家门诊手术样本库(NASS)、美国国家住院患者数据库(SID)、美国国家门诊手术及服务数据库(SASD)等数据库:

全名 首字母缩略词 开始年份 新纪录/每年 关键优势 主要限制 理想用途
国家数据
国家住院患者数据库 NIS 1998 700 万 量级大、历史长,包含所有住院患者 缺乏纵向数据 研究全国患病率/发病率、随时间的变化,以及诊断、医疗措施和结局之间的关系
儿童住院患者数据库 KID 1997 200 万-300 万 量级大,使用国家估计数值 缺乏以各州为单位的数据 研究全国儿童群体患病率/发病率,随时间的变化,以及诊断、医疗措施和结局之间的关系
急症数据库 NEDS 2006 3000 万 量级大,聚焦急救护理 无法通过护理系统观察患者 了解患者使用的急症服务
全国再入院数据库 NRD 2013 1500 万 重新入院和纵向数据 不适合地区、州、医院级别的分析 研究手术后的再入院数据
各州数据
各州住院患者数据库 SID 1995 因州而异 各州所有付款人数据 随着时间推移,各州参与程度不一致 各州外科服务政策
各州门诊外科服务数据库 SASD 1997 因州而异 所有付款人门诊数据 仅包含 20 个州 了解各州住院手术和门诊手术的的趋势
各州急救数据库 SEDD 1999 因州而异 所有付款人急救护理数据 无法通过护理系统观察患者 了解各州的急救手术

官方地址: https://www.hcup-us.ahrq.gov/db/nation/nis/nisarchive.jsp

SEER 癌症数据库

美国国立癌症研究所 SEER 数据库(Surveillance, Epidemiology, and End Results)数据来源于美国各地区。经培训的登记员在所有诊断或治疗癌症的临床机构中收集所有年龄段的患者数据,无论其保险状况如何。死亡日期和死亡原因参照死亡证明,使用美国人口普查局的数据计算死亡统计数据。

监测、流行病学和最终结果数据库概述:

类型 SEER 包含内容 SEER 不包含内容
社会人口学因素 确诊年龄,出生年份,种族/民族,性别,人口普查区教育,人口普查区收入,婚姻状况,出生地 个人收入,家庭收入
地理因素 居住县和州,原始 SEER 登记处,城市/农村名称 邮政编码,治疗地点
临床因素 既往癌症病史 合并症,功能状态,药物治疗
癌症特异性因素 部位,偏侧性,分期,分级,淋巴结状况,患病程度 b,肿瘤标志物 根据癌症部位的不同,信息可能会不同程度地缺失。
病理 淋巴管侵犯,神经周围侵犯,切缘状态 收集的病理信息因肿瘤部位不同而不同。
治疗 诊断确认方法,手术记录,手术范围,放射治疗记录,治疗顺序 临床医生信息,手术方法,放射剂量,化疗,激素治疗,免疫治疗
结局 死亡日期,死因 癌症复发状况

SEER 数据涵盖了约 28%的美国人口数据;由于其有针对性的抽样方法,SEER 数据库包含较高比例的少数种族/民族群体、在外国出生的个人以及收入低于联邦贫困线的人群。

官方地址: https://seer.cancer.gov/

NCDB 癌症数据库

美国国家癌症数据库(National Cancer Database,NCDB)是美国外科医师学会癌症委员会(CoC)与美国癌症协会共同主办的联合项目,成立于 1989 年,是基于医院的临床癌症登记库,收集美国 1500 多家医院的数据,收录了超过 70%的新诊断癌症病例。

2013 年,美国外科医师学会 CoC 开始向 CoC 成员机构提供参与者用户文件(PUF),这使得采用 NCDB 数据库数据产生的科研文章的数量及类型呈指数级增长。随着 NCDB 的持续扩展和访问,预计科研文章及结果的数量将持续增加。

官方地址: http://www.facs.org/quality-programs/cancer/ncdb.

NSQIP 外科数据库

美国国家外科质量改进数据库及小儿外科数据库,(NSQIP,National Surgical Quality Improvement Program and Pediatric NSQIP)

100 多年来,美国外科医生学会(ACS)一直为高质量的医疗外科护理服务制定标准。在最初退伍军人事务部项目的基础上,ACS 于 2004 年制定并实施了国家外科质量改进项目(NSQIP)。自成立以来,NSQIP 已扩展到近 700 家医院,每年纳入超过 100 万个病例。

ACS NSQIP 项目的主要优势是它提供了全国性、临床提取、高度可靠、风险调整后、病例组合调整后的手术数据报告,便于有效进行同行比较。因此,ACS NSQIP 被广泛认为是最佳的外科质量及结局评估项目(见表)。医院和临床医生可以通过 ACS NSQIP 获得可操作的颗粒度数据,从而改善发病率和死亡率,预防并发症以节约成本,并为特定疾病、特定手术、区域或系统合作提供帮助。同时,儿科 ACS NSQIP 项目(NSQIP-P)于 2008 年开始试点,以解决儿童的手术质量改进问题。ACS NSQIP-P 目前扩展到 100 多个医院,每年纳入超过 15万个儿科病例。

官方地址: https://www.facs.org/quality-programs/data-and-registries/acs-nsqip/

GBD 全球疾病负担

全球疾病负担 (Global Burden of Disease,GBD) 研究全面介绍了不同国家、时间、年龄和性别的死亡率和残疾情况。它量化了数百种疾病、伤害和风险因素造成的健康损失,以便改善卫生系统并消除差距。

  • 281,586+数据源以估计 GBD 2019 研究中的死亡率、健康结果和风险
  • 35 亿+对健康结果和卫生系统措施进行高度标准化和全面的估计
  • 350+健康结果和风险因素,为洞察全球健康趋势和挑战提供了强有力的基础
  • 10000+来自 160 多个国家和地区的个人合作审查 GBD 数据源和估算

项目地址
在线交互式可视化

eICU 多中心重症监护数据库

eICU 协作数据库是与在美国重症监护病房接受飞利浦 eICU 计划一部分的患者相关的表格集合。这些表通过一组标识符链接,例如唯一标识单次 ICU 住院的 patientunitstayid 和唯一标识医院的 hospitalid

项目地址

美国胸外科医师协会(STS)数据

美国胸外科医师协会(Society of Thoracic Surgeons, STS)国家数据库由三部分组成,分别聚焦于一个独立的心胸外科亚领域手术,包括:

  • 成人心脏外科(Adult Cardiac Surgery Database, ACSD;1989 年建立)从 1119 个参与项目的医疗保健中心(通常定义为机构的外科项目,而不是一家医院)收集了超过 610 万份患者记录
  • 先天性心脏病手术(Congenital Heart Surgery Database,GHSD;1994 年建立)包含 120 个外科项目提交的 394980 例手术数据,其中室间隔缺损手术占比最高
  • 普通胸外科(General Thoracic Surgery Database,GTSD;2002 年建立)包含了 279 个外科项目、共 919 名医生(892 名胸外科医生)提交的 482432 例手术数据和来自其他 2 个国家的数据

局限性:

  • 一个基于手术操作(而非基于疾病)的数据集,很难对手术和非手术干预进行比较研究
  • 缺乏关于外科医生和医院特征的信息;缺乏长期结局(如生存率)和患者报告结局的数据

[项目地址]( https://www.sts.org/registries-research -center/sts-national-database)

临床术语标准化数据集

医渡云手术名称标准化 7k 数据集: 下载地址备用地址

医疗 NLP 类 github 汇总

项目地址

往年同期文章