基于特殊标志符的中文分词算法研究

来源 :湖北工业大学 | 被引量 : 5次 | 上传用户:thisxyl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文信息处理是一个繁琐而庞大的信息处理工程,中文分词的处理则是整个工程当中的一个基础且重要的环节。计算机对汉语的理解,首先要对句子能够进行有效而正确的识别,要正确的理解一句话,则要进行正确而恰当的分词,在词的基础上来理解语句。然而,在对比中文和英文时了解到,英文句子的组成是以词为单位,并用空格来隔开相邻的单词;而中文却是以字为单位,由字连成句子来表达一个完整的意思。计算机可以很容易地理解一个英文单词,从而相应的做出判断;而对由单个字组成的中文句子则须先通过中文分词技术,将整句划分为单个词才能理解。因此,中文分词的过程就是用一定的分词规则将整句划分为分散的字或词的过程。本文主要对中文分词技术进行了以下几个方面的研究。首先,简要介绍了本课题的研究背景,本课题的主要研究内容和研究意义;明确研究的方向才能继续下一步的研究工作。介绍了中文分词及相关技术在国内外的发展现状,列举了一些典型的分词算法和分词系统,定义了中文分词的基本概念,为后来的深入学习研究提供前期可借鉴的经验基础。其次,在对前人提出的研究成果基础之上进行深入分析,比较现有的分词技术和分词系统各自的优点和缺点,并指出了中文分词所面临的难点;结合对以上的分析作者提出了一种基于特殊标志符的分词方法。在对汉语词性的分析和研究基础上,根据汉字在汉语中的词性表现,通过大量的文献参照,总结并提出了汉语特殊标志符集,为本文下一步进行的分词方法的研究和实现奠定基础。再者,对现有的分词词表结构进行分析比对,理解各种分词词典机制的优缺点,并结合中文字词的一些表象特性,作者提出了一种改进的以二字词为词根的中文词表结构,并对该词表结果做了详细的结构解释和说明,对比其在结构上的分词优势。最后,作者将特殊标志符集与改进的新词典结构相结合,在实验室环境下对本文的分词方法进行测试,使用SOUGOU训练语料库中的实验文本分别在本课题分词系统中和其他分词系统中进行分词实验,通过人工对本课题的研究成果进行准确度和分词速度的测试上的比对。最后对本课题进行了总结,也对本课题未来的研究方向作了展望。
其他文献
SOA的出现和快速发展,使得Web服务在软件开发过程中成为了一个举足轻重的角色。由于单一Web服务功能受限,它们很难满足用户日益复杂的需求,很多情况下需要将已存的原子Web服
排序问题是信息检索领域的核心问题,多年来一直是信息检索领域研究的热点。Web是当今最大的非结构化数据集合,如何排序web文档必然成为了信息检索领域研究的焦点所在。而语言
学位
当前网络的规模不断加大,应用的普及程度越来越广,网络已经深入了我们生活的方方面面,因此网络的安全性也受到人们的高度重视。分布式拒绝服务攻击(DDOS)是一种攻击方法简单,
伴随着计算机技术、特别是网络技术的飞速发展,XML作为一种可扩展标记语言,凭借其跨平台、可扩展的优势,被广泛地用于实现异构信息和异构平台的数据交换和共享。为了标准化XML数
学位
随着网络技术的发展和信息技术的进步,人们对网络的依赖性日益突出,同时信息安全问题也越来越重要。虽然众多学者们在信息安全领域的研究中取得了巨大的成果,但随着理论研究
学位
P2P流媒体直播系统在互联网中已得到广泛应用。在直播系统中,节点选择机制直接影响系统的拓扑结构,是系统中的核心问题。目前主流的节点选择机制是将系统作为一个整体考虑,注重
学位
近年来,随着网络的普及与发展,大批P2P流媒体的应用开始涌现,P2P流媒体直播技术作为其中一个重要分支已经成为流媒体研究的热点问题之一本文在PeerCast的基础上开发出了P2P大
动态目标路径规划问题是游戏人工智能中极具挑战性的研究内容之一,其研究成果可广泛应用于机器人导航、军事仿真等众多领域,具有较大的研究价值和实用价值。本文在人工智能搜
车牌识别技术是智能交通系统的重要组成部分,在现今社会具备越来越重要的作用。车牌识别系统通过对车牌的自动识别,实现了车辆管理的规范化,科学化,具有广泛的应用前景。车牌
随着科学技术的迅猛发展,全球网民数量的急剧增加,互联网几乎普及到人们日常生活中的方方面面,随之而来的是信息量的爆炸式增长,尤其是在电子商务方面。大量的数据引起的“信