论文部分内容阅读
中文人名主要包括中国人名、口本人名、外国音译人名等。中文人名的识别是中文命名实体识别的重要组成部分,同时也是信息挖掘、信息抽取、机器翻译、文本分类等研究领域重要的基础性工作。此外,在分词领域,绝大多数的未登录词是人名,中文人名的识别效果直接影响了分词的正确率。因此中文人名识别具有非常重要的意义。近年来针对人名识别问题,研究者们从不同的角度出发提出了多种解决方法。这些方法大体可以分为基于规则的方法、基于统计的方法以及统计和规则相结合的混合方法。当前针对中国人名识别的研究较多,并且取得了较好的效果,但是对西方音译人名及日本人名识别的研究则较少,识别效果也亟待提高。本文提出了基于条件随机场(Conditional Random Fields, CRF)并结合上下文规则及人名可信度的方法进行中文人名同步识别。首先利用CRF进行人名初识别,对于边缘概率比较低的人名及系统可能漏识别的潜在人名,利用人名用字可信度模型再确认,对于所有识别的人名,利用上下文规则进行人名筛选,然后再利用局部统计算法对边界识别错误的人名进行修正,最后利用扩散操作进行全文扫描,找到未被识别的人名。本文的创新点包括如下几个方面:1.扩展了CRF特征。本文在构建CRF模型时除了利用CRF的内部特征外,还增加了边界词特征、人名用字特征及字符分类特征,提高了CRF的识别效果。2.针对中国人名、日本人名、外国音译人名的特点分别构建了不同的人名可信度模型,并对这三种人名同时进行识别。3.提出了基于错误驱动的学习方法获取规则,更符合真实语料库的实际情况,避免主观设定规则造成的片面性、冗余性。4.提出了多种策略准确识别人名。本文利用边缘概率定位CRF可能识别错误的人名,利用规则及中、日、音译人名三种不同的人名可信度模型进行再确认,利用局部统计算法进行人名修正,最后利用扩散操作召回未被识别的人名,使系统取得最佳识别效果。本文以人民日报语料库、LCMC语料库及手工收集的音译人名和日本人名语料库作为训练和测试语料。通过实验,中国人名识别的正确率和召回率分别为93.26%、92.07%;同本人名识别的正确率和召回率分别为92.03%、91.88%;音译人名识别的正确率和召回率分别为95.71%、96.76%。实验结果表明,本文提出的中文人名识别方法可以取得较高的正确率和召回率,具有重要的价值和意义。