中文地名识别研究

被引量 : 7次 | 上传用户:lyh682020
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别是自然语言处理技术中一项关键而基础的任务,中文地名是命名实体的一个重要组成部分,且中文地名的特点比较复杂多样,构成比较随意,导致中文地名识别成为自然语言处理中一个难以解决的任务。本文主要对中文地名的识别进行研究,采用条件随机场(Conditional Random Fields,CRF)模型来实现对中文地名的识别。本文首先概述了命名实体识别及其中文地名识别的概念、研究背景、国内外研究现状,并对现有的方法进行了研究和分析。通过对目前主流方法的学习,决定采用条件随机场对地名进行识别。条件随机场是目前性能较好的模型之一,它既不受到隐马尔科夫模型中的独立性假设的限制,又不存在最大熵模型中的标记偏置问题,是一种优秀的统计学习方法。中文地名的识别可以转化为对序列进行标注,因此训练集和测试集的正确标注直接影响了识别性能。现有的识别模型在对语料进行分词时,大多采用ICTCLAS系统,由于该系统存在一些地名分词错误,降低了整体的识别性能。针对上述问题,本文建立了地名词典,将其添加入ICTCLAS系统的用户词典,从而保证地名分词的正确性。条件随机场虽然是很优秀的机器学习模型,但也存在收敛速度慢,训练时间长的缺点,因此选取合适而精炼的特征就尤其重要。本文在结合中文文本中地名的特点并且学习分析了前人的研究,通过实验筛选了更优的特征,并且采用递增式学习策略进行特征模版的筛选,提高了条件随机场的地名识别性能。实验结果表明本文提出的中文地名识别方法能够获得满意的识别效果,对1998年人民日报标记语料库进行开式测试,得到的准确率、召回率、F值分别为95.34%、89.28%、92.29%,有效的提高了中文地名的识别效果。
其他文献
功率型白光LED作为新一代半导体照明光源,具有寿命长、能耗低等优点,正日益受到广泛的关注及研究。目前,对于大功率LED阵列,其热流密度已达到100W/cm2,但它只能将约20%的电能
目的:当把静脉血管移植到动脉后,静脉移植物在适应动脉环境的过程中,VEGF-A首先短暂地升高然后下降,但VEGF-A在静脉重塑中的作用尚不清楚。此外,尽管VEGF-A刺激血管生成(Angio
作为回旋管家族中的重要一员,回旋速调管具有高功率、高增益和高效率的优点以及具有一定带宽。与传统的微波器件相比,回旋速调管是一种新型高功率毫米波微波源,在毫米波、亚毫米
怎样提高教学质量,这一直都是高校的教育工作者们所致力研究的重要问题,同时,这也是我们学校的教师在授课时所追求的终极目标。开展学生评教既有助于教师提高教学水平,也能加强教
现代工业发展对中厚板材的质量要求越来越高,尤以厚度为最,随之也对轧机的执行机构及控制系统性能提出了更高的要求。轧机液压板厚自动控伟(Automatic Gauge Control,简称AGC
装配顺序是装配工艺规划的核心,从20世纪80年代起国内外学者就装配顺序规划进行了广泛的研究,随着零件个数的增加,可行的装配顺序数目会爆炸性地增加,而在诸多可行的装配顺序
磺酰脲类除草剂的大量使用给生态环境和人类健康带来诸多危害,如何清除其在环境中的残留已成为众多科学家关注的热点问题。利用降解菌及其产生的降解酶降解农药具有高效、无二
<正>2017年12月13日,由中共银川市委、银川市人民政府主办,市委宣传部、市新闻传媒集团、宁夏融媒科技有限公司协办的银川市"2017年社会主义核心价值观铸魂工程"颁奖典礼在银
由于中国证券业发展过于迅速,面对市场竞争传统业务的转型势在必行,这个过程需要有足够的人才以及相应的专业、管理知识和核心能力以支撑业务发展。而国内证券公司的人力资源工