基于规则的汉语兼类词标注方法研究

被引量 : 0次 | 上传用户:feager2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语词性标注作为自然语言处理领域的基础性研究课题之一,近年来受到广泛的关注和深入的研究。词性标注的研究成果可为信息抽取、汉语语义分析等其它高层处理任务提供必要的基础,在实际的自然语言应用中起到至关重要的作用和影响。因此,本文以词性标注为研究目标,对其中的关键问题做系统研究。目前,英文词性标注的准确率较高,用传统的统计模型即可解决,这是由英语的语法特点决定的。兼类词的标注准确率是影响词性标注准确率的决定性因素,英语兼类词词性的变化一般是随着词形的变化而变化的,而汉语兼类词就不存在有词形的变化了,这给我们统计模型带来了很大的困难,汉语词性标注的准确率就要比英语词性标注的准确率低很多。另外一个影响词性标注准确率的重要因素就是对未登录词的处理。未登录词就是在统计模型词典中未收录的词,当我们的词典到达一定规模的时候,未登录词就主要是一些命名实体词了,包括人名、地名、机构名等等。特征模板的选择也会影响词性标注的准确率,统计模型是根据特征模板来统计上下文信息的,所以特征模板的设置也是很重要的。如何解决上述问题对汉语词性标注来说是至关重要的。目前,汉语词性标注主要分为三种方法,即统计、规则以及规则和统计相结合的方法,第三种方法结合了统计方法与规则方法的优缺点,能够很好的解决汉语词性标注问题。本文就是围绕第三种方法展开研究。本文主要做了以下几个方面的工作。首先,建立了隐马尔科夫模型、条件随机场模型、最大熵模型三种传统的统计模型,并用这三种模型对《人民日报》语料库进行词性标注,统计标注结果。同时,又对汉语词性标注的特征选择进行了研究,了解不同特征模板对汉语兼类词标注准确率的影响,从而确定了自己的特征模板选择方法。针对词性标注中未登录词的问题,本文提出了自己的处理策略,即规则和统计相结合的方法,提高了词性标注的准确率。同时,对于传统的统计模型对汉语兼类词标注准确率不高的问题,引入了一种基于互信息的汉语词性标注规则挖掘方法,对规则挖掘进行了研究,并引入规则优先级算法解决规则冲突问题,最后将所得规则和统计模型相结合,实验结果表明,规则挖掘方法提高了词性标注的准确率。
其他文献
本文采用美国国家海洋大气局国家海洋数据中心收集的历史水文资料,绘出了南海海水T-S点聚图6幅,并作了简要说明和初步分析,以供南海物理海洋学研究者参考使用。
<正>既是一时误解误会或者出于完全商业布局营运目的而离开的企业,只要营商环境好,离开的企业最终还是会回来的。这两天一篇题为"别让李嘉诚跑了:地产财富与权利走得近,不宜
期刊
美联储针对美国国债进行的扭曲操作是传统的公开市场操作货币政策的一种变异,然而作为一种理论与实践创新,其运行机理与传导效果尚有待证明。本文构建了一个包括中央银行、商
新颖性判断是科技查新工作的关键,精准地把握好查新项目的新颖性,对于判断评价科技成果有着十分重要的作用。结合新的形势和工作实践,对探索科技查新新颖性判断应遵循的原则
<正>现有常用客观评估手段前鼻镜检查鼻内镜检查影像掌检查:CT,MR 鼻声反射测量法,鼻阻力的测定, 鼻腔最大吸气及呼气流量的测定等
会议
在新时期的科技查新工作之中,科技查新已成为当前科技创新管理工作中的重要组成部分,为专家的评议提供了可靠的文献依据和数据支持。本文在着眼于当前科技查新工作的基础上,
<正>文言文是中华民族优秀的传统文化,但小学生对文言文的学习兴趣不浓,文言文教学面临着挑战。笔者在文言文教学过程中特别注重利用品读、对话、练笔等教学环节,充分调动学
我国医疗卫生体制不断健康的发展及其不断的深化改革,医疗保障系统越来越受到各界重视,医疗市场日趋广阔,作用日益提高。随着我国医疗市场逐步开放和公立医院规模的不断壮大
在能源开发、环境保护和完善电网建设的多重需求之下,以可再生能源为主的分布式发电技术在近些年来受到广泛关注,得到飞速发展。分布式发电(Distributed Generation,简称DG)
以报春石斛、金钗石斛和鼓槌石斛成熟叶片为材料,通过对一定光照强度梯度下光响应曲线和相关参数的测定,研究了温室栽培条件下冬季石斛叶片光合作用特征。结果表明:冬季石斛可利