基于CRF的中文人名自动识别研究

被引量 : 0次 | 上传用户:Air8712
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文人名主要包括中国人名、口本人名、外国音译人名等。中文人名的识别是中文命名实体识别的重要组成部分,同时也是信息挖掘、信息抽取、机器翻译、文本分类等研究领域重要的基础性工作。此外,在分词领域,绝大多数的未登录词是人名,中文人名的识别效果直接影响了分词的正确率。因此中文人名识别具有非常重要的意义。近年来针对人名识别问题,研究者们从不同的角度出发提出了多种解决方法。这些方法大体可以分为基于规则的方法、基于统计的方法以及统计和规则相结合的混合方法。当前针对中国人名识别的研究较多,并且取得了较好的效果,但是对西方音译人名及日本人名识别的研究则较少,识别效果也亟待提高。本文提出了基于条件随机场(Conditional Random Fields, CRF)并结合上下文规则及人名可信度的方法进行中文人名同步识别。首先利用CRF进行人名初识别,对于边缘概率比较低的人名及系统可能漏识别的潜在人名,利用人名用字可信度模型再确认,对于所有识别的人名,利用上下文规则进行人名筛选,然后再利用局部统计算法对边界识别错误的人名进行修正,最后利用扩散操作进行全文扫描,找到未被识别的人名。本文的创新点包括如下几个方面:1.扩展了CRF特征。本文在构建CRF模型时除了利用CRF的内部特征外,还增加了边界词特征、人名用字特征及字符分类特征,提高了CRF的识别效果。2.针对中国人名、日本人名、外国音译人名的特点分别构建了不同的人名可信度模型,并对这三种人名同时进行识别。3.提出了基于错误驱动的学习方法获取规则,更符合真实语料库的实际情况,避免主观设定规则造成的片面性、冗余性。4.提出了多种策略准确识别人名。本文利用边缘概率定位CRF可能识别错误的人名,利用规则及中、日、音译人名三种不同的人名可信度模型进行再确认,利用局部统计算法进行人名修正,最后利用扩散操作召回未被识别的人名,使系统取得最佳识别效果。本文以人民日报语料库、LCMC语料库及手工收集的音译人名和日本人名语料库作为训练和测试语料。通过实验,中国人名识别的正确率和召回率分别为93.26%、92.07%;同本人名识别的正确率和召回率分别为92.03%、91.88%;音译人名识别的正确率和召回率分别为95.71%、96.76%。实验结果表明,本文提出的中文人名识别方法可以取得较高的正确率和召回率,具有重要的价值和意义。
其他文献
本研究以华人孝道双元(相互性及权威性)模型为基础,采用台湾社会变迁基本调查计划跨17年(1994-2011年)的大型数据,运用多层次线性模式之"交叉分类随机模型",进行"年龄—时期
本文以生产要素内部配置结构变动对区域工业企业边际产出弹性影响为基础,建立包含生产要素内部配置结构的柯布-道格拉斯生产函数,对区域工业企业创新效率进行分析。主要结论
传统的官方历史往往聚焦于男性精英的成就,迷恋于阐述历史发展的大趋势而忽略了历史边缘人群包括女性的声音;女权主义女性历史趋于描述女性创造历史的能力而无暇顾及女性的牺
中国是茶文化的发源地,茶在人们日常生活中起着举足轻重的作用;咖啡对法国人的重要性也正如茶对于中国人一样,绝对是有过之而无不及。它们有很多相似性,但也有不同点,本文就
我国作为全球铁矿石的最大进口国,却长期得不到相对应的定价话语权。与之对应的,我国稀土行业也曾一度丧失定价权,但通过限制出口量、限制产量、加强行业整合、规范行业准入
医学是一门高度实践性的学科,医学生实验能力的培养高等医学教育的精髓,也是医学实验教学改革的重点[1]。
在简述应急事件与应急通信的基础上,分析了现阶段我国应急通信存在的不足之处,并就专网终端的现场互通和针对公众通信工具的应急疏散通信提出相应的技术对策。
随着技术标准在企业市场竞争中的作用日益重要,技术标准所包含的利益关系也日益复杂,标准的技术先进性不足、标准制定的时间成本过高,以及对技术创新保护偏弱等问题正影响着
历史的发展,总有规律可循.新中国成立以来的70年,既是中华民族从站起来、富起来走向强起来的70年,也是我们党带领人民不懈探索社会主义建设规律的70年.风雨多经人不老,关山初
报纸