基于统计语言模型的汉语分词消歧研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:spls108
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理已经发展了几十年,近年来随着互联网的高速发展,人们使用计算机处理自然语言的需求越来越多。词是最小的语言单位,而汉语中词与词之间没有间隔,因此,分词成为解决一切汉语信息处理问题的基础。文本检索、机器翻译、文本抽取、文本分类、网络文本挖掘、问答系统全都需要自动分词的支持。 汉语分词在汉语信息处理中具有重要的地位,同时也是汉语信息处理的一个难点问题。汉语分词的难点包括:词的概念不明确、未登录词、切分歧义、离合词等等。其中,切分歧义的问题是本文研究的重点。 统计语言模型在越来越多的自然语言处理领域被采用,并且取得了不错的效果,本文在充分研究分析汉语分词切分歧义的基础上,在利用统计语言模型解决汉语分词切分歧义方面做了一些工作,主要工作包括: 1.研究分析了汉语分词中的交集型歧义和组合型歧义问题,并对相关工作进行了介绍和分析。 2.介绍统计语言模型n-gram,设计并实现了n-gram语言模型,构建了包括预处理、n元词串抽取、参数估计、模型评价在内的一个工具集。为利用n-gram语言模型处理很多语言问题打下基础。 3.利用实现的语言模型,提出了一种多层次的基于多种权值估计函数的交集型歧义消歧算法。此算法充分分析了各种交集型歧义出现的可能性,既考虑了上下文对歧义字段的影响,也顾及到歧义字段各组成成分的内在联系。实验结果表明,本文在汉语分词的交集型歧义处理方面取得了不错的效果。 4.对汉语分词组合型歧义作了初步研究,提出了一种利用统计语言模型解决组合性歧义问题的策略。 本文在利用统计语言模型解决汉语分词中的歧义问题方面做了一定的研究,对利用统计语言模型进行汉语信息处理进行了探索。同时,我们所设计并实现的统计语言模型工具集为将来的研究工作,如基于统计的词性标注、汉语分析、机器翻译等等,提供了一个平台。
其他文献
伴随信息技术变化的是网络架构的变化,传统上通过调制解调器或租用线路连接互联网的方式正逐渐被新兴虚拟专用网VPN所代替。VPN使用户可以通过互联网安全地进行通信,在未来的几
软件项目管理的不规范性,软件产业人员的高度流动性,使得留下了很多基线不一致的,不好读懂的程序,这些程序往往造价高昂,其中很多还有重用价值,这时就迫切需要有一种工具可以帮助人
本文对传统的真实感图形曲面简化生成过程进行了深入的研究,分析了其中的缺点与不足,并在此基础上提出了基于离散点绘制的曲面简化的新方法。与传统方法相比,该方法思想新颖,可以
在分布式应用系统中,服务器负载不均衡是一个突出的问题.这个问题严重影响系统的性能和效率,更为合理的服务器负载平衡策略可以提高系统的响应速度和优化系统性能.该文主要研
空间数据模型是对现实世界的抽象和模拟,它不仅是GIS数据库系统的核心,也是所有GIS赖以成功的基石.面向实体的空间数据模型是当今流行GIS软件大多采用的模型,它以独立、完整
随着网络技术的不断向前发展,网络安全越来越受到人们的重视,大规模分布式入侵检测系统已经开始大范围的部署,人们对于大量存在的入侵检测系统存在的疑问主要有两点:1. 这样的系
由于存储在医疗数据库中的知识和数据具有广泛性,这就对数据的存储、连接、分析及被存储的知识和数据能够有效地使用的专业工具提出更高的要求。在Edward H. Shortliffe文章“
论文首先分析了国内外相关技术的研究现状,指出了与国外网络协同技术的发展相比,我国存在着网络应用发展的不均衡,缺乏总体设计和大规模资源集成应用以及关键技术突破不够等
EAI,即企业应用集成,传统上是通过建立底层结构,联结企业的异构系统、应用、数据源等,实现在企业内部的ERP、CRM、SCM、数据库、数据仓库,以及其他重要的内部系统之间无缝地共享和
操作系统是连接计算机硬件与上层软件及用户的桥梁,是信息系统中最重要的基础软件,是构建其他软件安全运行的基础。它对上提供应用程序运行的软件平台,向下管理所有的硬件设备,其