现代汉语末登录派生词分析及识别研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:mad1979
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在中文信息处理领域,对于汉语分析最基本的一项任务就是自动分词,在自动分词阶段主要面临两方面的问题:未登录词的识别,歧义字段的切分。其中,未登录词识别是影响分词正确性的重要因素之一,是自动分词的一大难题。近年来,国内许多学者对未登录词识别中命名实体的识别研究的较多,而且已经取得了较好的成果,但是对派生词的识别缺乏广泛的研究,常是以个案研究居多,一定范围内的穷尽式研究较少,而且没有对派生构词模式做系统的分析,忽略了词语本身的内部结构特点。鉴于实验文本的有限性和研究对象的特点,本课题所研究的派生构词模式是指词干和词缀组合而成的词,并且以未登录词和派生词的定义为基础,从信息处理角度出发,将未登录派生词界定为词干部分出现在词表中,词缀出现在词缀表中,但是词干加词缀组合而成的词没有出现在词表中的派生词。本文在原有的对词缀界定的理论研究的基础上,加入计算语言学研究中的重要手段——基于语料库的量化分析研究方法,给出了面向中文信息处理的词缀界定标准,制定了信息处理用词缀表。以词缀的界定标准为依据,对信息处理词缀表中每个词缀进行分类研究,考察各种派生构词模式中的语法和语义特点,量化分析语料库中已登录派生词的构词模式。在进行未登录派生构词模式研究的时候,根据词缀语法意义的不同将词缀进行分类,依据语料库中未登录派生词的分布特点,重点分析“们”式未登录派生词和“者”式未登录派生词的构词模式及其特点,并且穷尽式的列举了语料库中其他未登录派生词的构词模式。在研究语料库中未登录派生词识别问题时,根据词缀派生构词能力的不同进行了两组平行实验,分别设计特征模板,借助条件随机场模型进行识别实验,通过实验结果验证实验方案的可行性。最后,对本文的工作进行总结和展望,概述论文工作的主要内容,并提出下一步工作的设想。
其他文献
企业应该在市场营销中开展创意思维,发现潜在消费者,提高营销效果,以达到增加企业竞争优势的目的。本文在辨明了企业市场营销创意的概念后,阐述了营销创意在具体的市场营销活
葫芦科作物是世界范围内最重要的十种蔬菜作物之一。中国是南瓜生产第一大国,2009年产量为6,506,966吨。随着经济的发展和人民生活水平的提高,南瓜生产已逐渐从数量型向质量
光呼吸是和光合作用密切相关的一个过程,它起始于光合作用碳固定阶段的第1个酶,1,5-二磷酸核酮糖(RuBP)羧化/加氧酶的加氧反应。RuBP加氧生成2-磷酸乙醇酸,这是一种对光合作
水利水电工程是一个国家的基础工程,在当今这个高速发展的时代,一个国家的基础工程建设水平,决定着这个国家人们的生活质量,体现着这个国家的发展水平,我国目前还在发展过程
近年来,民间借贷市场蓬勃发展,为中小企业融资提供了便利渠道。然而,民间借贷市场的不规范以及有效的法律监管的缺失,民间借贷行为多与非法集资、集资诈骗等犯罪交织在一起。
针对海洋环境影响航母编队作战效能的评估问题,采用层次分析法分析了影响编队效能的海洋环境因子,以美军航母战斗群为例给出了经典航母编队的体系结构,并以该编队结构体系中
随着有机硅产品应用领域的不断拓宽、品种和数量的不断增长,有机硅产品已经成为其他化学品所无法替代而且又必不可少的关键材料。有机硅材料作为一类性能优异的新型合成材料,广
为了完善重大建设项目的交通影响分析研究,特别是大型主题乐园的分析流程,以柳州卡乐星球项目为例子。首先在把握大型主题乐园的客源特征,分析客流规模;接着结合柳州本地情况
关山镇位于西安市阎良区东部,在方言分区上属于中原官话区关中片。本文在田野调查的基础上,运用共时描写、共时比较和历时比较的方法,一方面揭示方言语音面貌,考察方音源流变
本研究拟从福建省急救中心原始的报警、接警录音语料入手,从西方修辞学的视角,分析中国人群在紧急状态下运用语言报警、呼救的特点,以及120调度人员接警、调度语言的效率特点