规则和统计相结合的分词算法

来源 :太原理工大学 | 被引量 : 7次 | 上传用户:rambo527
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我们已经进入一个信息革命的新时代,这个信息时代的显著特点是计算机在人类生活的各个方面,起着越来越大的作用。自然语言是人们最重要的交际工具,它与信息处理有着十分密切的关系。在书面汉语中,词在句中没有显式的标记。因此,理解汉语的首要任务就是把连续的汉字串分割成词的序列,即自动分词。目前大多数分词研究都完全依赖计算机完成切分工作,不希望人工介入。但其结果往往不尽如人意。因为计算机要想准确切分文本,就一定要建立在对文本语义理解的基础之上;而要想让计算机能够理解中文语义,则首先要进行分词。不难理解,陷入这样的循环之中,是很难得到理想的切分结果的。作者在本文中提出了一种新的规则与统计相结合的分词方法。本方法的新颖之处在于,解决了理解与切分孰先孰后的两难问题,通过人工介入来选择特定领域词库,从而缩小了规则匹配的范围,提高了词库与待切分语料的匹配度;在此基础上,优先采用规则方法初分语料,最后使用统计方法对已切分的语料进行进一步处理。由于本实验的核心目的是为证明经过人工介入选择特定领域词库,会使规则与统计相结合的方法对文本的切分准确率明显提高,所以,作者采用了最有代表性的正向最大匹配的规则切分方法和切分准确率较高的md统计切分方法,分别使用规则切分、统计切分以及规则与统计相结合的方法处理相同语料,并对切分结果进行统计分析。实验用到的词库关键在于分类合理、内容准确以及符合实际。作者经过认真地总结和细心的整理,完成了词汇的归类和遴选的工作,包括地名、区划、计算机、俗语、动漫游戏、人名、网络新词以及各学科术语等等共25个专业领域词库,均采用文本文件格式保存。实验所用语料是《中国计算机》报《产品与应用》栏目的1423篇文章(.txt格式)为数据源建立语料库,不计空格,共含中文、英文及标点156,453个,其中,中文字符数为123,764个。经过具体实验验证,将上述两种分词方法通过新方法结合后,对语料的切分精度明显高于单纯使用规则或统计方法的精度。
其他文献
随着对高性能计算资源的需求增长,使用云计算环境下的虚拟集群来运行紧耦合的并行应用变得越来越流行。然而在虚拟化环境下,会发生锁持有者被抢占问题。当虚拟机中占有锁的虚
对于许多实际应用,稀有类分类问题都非常重要。而稀有类样本的数量稀少使得很难使用传统的分类器对它们准确分类。由于稀有类问题的特殊性、复杂性及难解性,目前研究稀有类问题
本硕士论文所反映的研究工作是在四川省网络通信重点实验室的分布式多端口并发测试技术和测试系统的基础上展开的。传统的针对路由器的测试方法,如ISO 9646定义的穿越测试法,已
随着市场经济的快速发展,企业联系日益密切,社会分工也日趋细腻,物流业已成为国民经济中一个重要的产业,而物流业中仓储管理已是影响物流效率与质量的重要部分。物流业的发展促使
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,其主要目标是从大型的数据库中挖掘
学位
网络教育突破了传统教育制度和模式的束缚,是教育体系发展过程中的一次重要变革。人们通过网络教育可以轻而易举地获取知识,从而参与公平竞争。网络课程具有交互性、共享性、开
随着信息技术的不断发展,XML规范已经得到普遍接受和应用,如何更高效地查询XML文档中的信息也已成为学术界和工业界的研究热点。目前的几种XML文档查询技术中,基于索引的全文检
固态硬盘由于存取性能高、能耗低的优点不断被普及,利用SSD+HDD搭建分层的混合存储系统被不断开发和利用。然而由于SSD受到写次数的限制,具有一定的使用寿命和可靠性问题。如
生物特征识别是一种利用个体生理特征来对个体进行身份鉴定的技术,指纹由于其唯一性和终生不变性特征而成为理想的个体身份鉴定依据。近年来,随着计算机与信息技术的发展,指纹识