论文部分内容阅读
汉语自动分词是中文信息处理的基础工程,中国人名的自动识别则是汉语自动分词的难点之一,已经成为制约汉语自动分词系统准确率的一大瓶颈。
本文在分析中国人名用字以及中国人名与其上下文联系的基础上,采用最大熵模型对中国人名进行自动识别。
本文对中国人名的内部成词情况以及中国人名与其上下文的联系进行了分析,得出了中国人名上下文与中国人名有着很强的联系并且中国人名内部构成也呈现一定的统计特性的结论。
本文用最大熵模型自动识别中国入名,识别流程分为训练和识别两个阶段。
在训练阶段中,主要采用最大熵模型对熟语料进行参数训练。首先用ICTCLAS的人名角色表对语料库的词性进行角色替换,然后构造特征模板库并且用特征模板库从角色替换后的语料库中提取出特征集,最后用IIS算法训练特征集的最大熵参数。
在识别阶段中,首先用基N-最短路径分词算法进行初分词,接着用viterbi算法对初分词文本进行角色标注,最后在角色序列的基础上进行模式最大匹配,从而实现中国人名的自动识别。
本文给出了相应的公式及公式推导过程,并且给出了相应参数的获取方法和计算公式。
在封闭测试实验中,识别准确率、召回率、F-值分别达到了85.4%,91.2%,88.2%。实验结果表明基于最大熵模型的中国人名自动识别行之有效。