基于角色标注的中国人名自动识别研究

中文标题:基于角色标注的中国人名自动识别研究

英文标题:Classification-based Financial Markets Prediction using Deep Neural Networks

发布平台:计算机学报

计算机学报

发布日期:2004-01-01

引用量(非实时):87

DOI:缺失

作者:张华平, 刘群

关键字: #人名识别 #自然语言处理 #Viterbi

文章类型:journalArticle

品读时间:2021-08-28 12:14

1 文章萃取

1.1 核心观点

从语料库中自动抽取的角色信息,采取 Viterbi 算法对切词结果进行角色标注,在角色序列的基础上,进行模式最大匹配,最终实现98%的召回率中国人名的识别。

1.2 综合评价

  • 利用五分钟一次提取的高频数据,构建了9895个特征
  • 利用高性能处理器进行RNN神经网络训练
  • 最终结果得到了不错的夏普值,是比较常规的NER方法

1.3 主观评分:⭐⭐⭐

2 精读笔记

2.1 引言

人名识别的必要性

  • 对人民日报1998年1月的语料库(共计2,305,896字)进行的统计
  • 每100字中含未登录词1.192个(不计数词、时间词),其中48.6%的是中国人名
  • 中国人名的召回率仅为68.77%,其切分错误高达50%以上
  • 对所有分词错误进行统计,姓名错误占了将近90%

人名识别的困难点

  • 人名构成复杂,比如"刘总 已离开江西"
  • 人名内部相互成词,如“朱朝阳”、“高峰”
  • 人名与上下文成词,如“这里有 关羽 的遗迹”中的“有关”
  • 同源冲突引起的歧义理解,如“王致和 同学爱吃臭豆腐”

2.2 中国人名自动识别

2.2.1 人名的构成:

2.2.2 自动标注与人名识别

$W=(w_1,w_2,...,w_m)$:表示分词后的Token序列(即未登录词识别前的分词结果)

$T=(t_1,t_2,...,t_m)$:表示$W$的某个可能的角色标注序列

$T^\eta =argmax_TP(T|W)$ :表示最终标注结果,即概率最大的角色标注序列

根据$Bayes$公式可得$P(T|W)=\frac{P(T)P(W|T)}{P(W)}$,其中$P(W)$在数据足够的情况下为常数

因此$T^\eta =argmax_T P(T)P(W|T)$

引入隐马尔科夫模型(HMM)来计算$P(T)P(W|T)$,其中$W$表示观察值序列(一系列的字),而$T$表示状态值序列(一系列的字的标注),而HMM的特性在于当前字的标注主要取决于上一个字的标注,所以最终的目标函数为:

$$T^\eta =argmax_T \Pi_{i=0}^m P(t_i|t_{i-1})P(w_i|t_i)=-argmin_T \Sigma_{i=0}^m {lnP(t_i|t_{i-1})+lnP(w_i|t_i)}$$ 这是一个最短路径问题,利用Viterbi算法就可以求解$T^\eta$

借助大规模已标注语料集(本论文使用给定是1998年版人民日报数据),可以统计得到$p(w_i|t_i)$和$p(t_i|t_{i-1})$,需要注意的是原始语料的标注是词性标注,需要转换为本文构建的标注。

除此之外,还要对$U$(人名的上文和姓成词)和$V$(人名的末字和下文成词)进行分裂处理,相应地分裂为KB、DL或者EL。这样最终的人名就可以通过以下结果集进行匹配: $$ { BBCD, BBE, BBZ, BCD, BEE,BE,BG,BXD,BZ,CD,EE,FB, Y,XD}$$

2.2.3 实验结果

相关资源

往年同期文章