汉语语言处理中专有名词的提取和识别

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:Devgame
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了让计算机具有处理甚至理解自然语言的能力,人们发明了很多自然语言语义分析理论。而在汉语的计算机处理中,大部分的语义分析都是以汉语分词作为基础。目前,很多的汉语分词方法都已经被发明出来,但无论使用哪一种分词方法,都会碰到分词歧义现象。在分词歧义现象中,有很大一部分又是由于句子中的专有名词引起。专有名词存在新词出现快,成词无固定规则,容易变化等特点,给汉语分词带来了很大的干扰,使专有名词的识别成为汉语分词的一大瓶颈。本论文主要致力于解决汉语分词中的专有名词识别问题。文章首先介绍了计算机自然语言处理,特别是汉语的计算机处理的现状以及目前汉语分词中使用的专有名词识别方法。接着本文详细讨论了专有名词识别系统所使用的识别算法:首先将专有名词分成了两类:一类是稳定的专有名词,此类名词具有长时间和较大范围存在的特点。另一类是容易变化的专有名词,这类名词新词出现速度快,并且没有明显的规律可循,这类名词主要就是中国人名。然后对这两类专有名词设计不同的识别方法:对第一类专有名词使用的基于专有名词词库的识别算法;对第二类专有名词使用的基于朴素贝叶斯分类的识别算法。然后,文章详细介绍了基于所讨论的识别算法的专有名词识别系统设计。本专有名词识别系统设计的介绍按以下流程进行:首先介绍本系统的整体识别流程;然后再介绍系统的静态结构,包括类和包的分布关系、每个类的作用、类之间的引用关系和继承关系以及本系统与汉语语言处理系统的静态接口;接着在系统的静态结构的基础上详细介绍系统的动态运行流程,主要包括各个类之间的函数调用关系。最后本文给出了识别系统对专有名词识别结果并对结果进行了分析,以验证本专有名词识别系统的识别能力并发掘系统还有待改进和提高的地方。总的来说,本专有名词识别系统有相当好的识别能力,能识别出中文句子中的专有名词,达到了预期的设计目标和效果。
其他文献
视频检索和分类是未来多媒体应用的一个重要方面,而运动信息作为视频所独有的信息,是视频检索的研究重点。总体来说,视频的运动可以分为两类,一类是全局运动信息,一类是局部运动信
随着网络技术和通信技术的发展以及安全管理的需要,基于网络的电话录音监听系统成为电力、金融等重要部门的必备系统。在对数字语音技术和现有的电话录音监听系统进行分析研究
随着人们对社会治安需求的迅速增加,建立起城市级的安防系统已经迫在眉睫,而视频监控系统是其核心组成部分。视频监控系统需要通过网络传输视频,目前有两种解决方案:一是单独布线
小水电是一种清洁、安全的可再生能源,对于环境保护有重要意义,是国家能源发展的重点战略方向。目前,电站间的通信逐渐开始互联化,远程监控系统开始运用于各种类型的水电站,
汉字识别的研究工作,一直被看作是十分困难的模式识别问题,并被视为字符识别的最终目的。汉字的识别最早可以追溯到上世纪60年代。我国对汉字识别研究工作始于70年代,从80年
从计算机出现起,各种问题就伴随而来。各种各样的软件故障以及因此带来的问题给软件行业敲响了警钟。在大量的现实问题面前,人们开始重视软件质量。软件测试作为一种重要的软件
近年来,基于卫星的互联网的发展已经成为宽带卫星通信发展的一个主要方向。卫星与互联网相结合具有更强大的功能,能够提供更广泛的服务。但是在设计和实现基于卫星的互联网时,卫
随着互联网的普及,电子邮件已经成为一种不可或缺的信息交流手段,然而与之相关的各种安全问题,包括广受关注的垃圾邮件,给广大网络用户带来极大的困扰。如何提高邮件系统的安全性
随着数字媒体技术和计算机网络通讯技术的蓬勃发展,数字媒体应用日益广泛。但随之而来的是数字媒体可以在无任何减损品质的状况下被轻易的拷贝并通过网络迅速传播,而且费用低
随着信息技术的发展和数字化产品的普及,从消费电子到工业设备,嵌入式系统被应用到网络、手持通信设备、国防军事等各个领域。嵌入式系统是以应用为中心,以计算机技术为基础,其软