结合字典对电子病历进行NER

中文标题：结合字典对电子病历进行NER
英文标题：Named Entity Recognition Over Electronic Health Records Through a Combined Dictionary-based Approach
发布平台：Procedia Computer Science
发布日期：2016-01-01
引用量（非实时）：89
- 1 文章萃取
- 2 精读笔记
  - 2.1 三种NER方法
  - 2.2 实验结论
相关资源

中文标题：结合字典对电子病历进行NER

英文标题：Named Entity Recognition Over Electronic Health Records Through a Combined Dictionary-based Approach

发布平台：Procedia Computer Science

发布日期：2016-01-01

引用量（非实时）：89

DOI：10.1016/j.procs.2016.09.123

作者：Alexandra Pomares Quimbaya, Alejandro Sierra Múnera, Rafael Andrés González Rivera, Julián Camilo Daza Rodríguez, Oscar Mauricio Muñoz Velandia, Angel Alberto Garcia Peña, Cyril Labbé

关键字： #NER #EHR

文章类型：journalArticle

品读时间：2022-01-13 13:47

1 文章萃取

1.1 核心观点

采用了三种基于规则的简单方法针对电子病历进行命名实体提取，包括直接匹配、模糊匹配、词干匹配，并且探讨了三种方式的结合效果和不同阈值下的匹配效果

1.2 综合评价

基于规则的匹配，朴素简单，缺少新意

对比采用的数据集和调参过程可以作为参考

1.3 主观评分：⭐⭐⭐

2 精读笔记

2.1 三种NER方法

$G$为字典，$G'$为$G$转化所得的词干(stemmed)字典 $DocX$为待抽取文本，$DocX'$为$DocX$通过词干转换所得的文本

方法1：直接根据词典进行精准匹配

方法2：根据词典进行基于距离的模糊匹配（在本文中，距离的计算是计算字母的差异数，阈值设定为0.25，即对于长度为9单词来说，最多可以容忍2个字母的误差）

方法3：把字典和待抽取文本中的单词抽取为词干，然后进行匹配

2.2 实验结论

$e,f,s$分别表示精准匹配、模糊匹配、词干匹配

不同阈值$T$对应的模型精度如下：

个人笔记

Digital Garden | 王半仙