基于词的属性的消歧与统计分析的研究

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:chenming88623
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的发展,数字化信息迅速增加,人们对中文信息的处理也越来越关注,同时,现代汉语信息的处理和研究也显得尤为重要,计算机自动分词是现代汉语信息处理的重要组成部分,也是基础的工作。衡量一个分词算法或分词系统的优劣主要在于分词的正确率和速度。其中,分词的正确率尤为重要。我们认为影响分词正确率的因素有两个:(1)歧义切分问题;(2)汉语姓名、地名、机关名等专有名词。对于词库的分词方法而言,影响分词的速度主要因素在于:(1)词库的规模和结构;(2)匹配选词的实现技术。因此,选择一个适当的分词方法,并用必要的手段解决切分难点是提高分词系统正确率和分词速度的关键。常用的分词方法主要有机械匹配法,如最大匹配法、逐词匹配法等等;语义分词法,如综合匹配法、语法分析法等。 首先对语料库的建立进行介绍,用到的语料主要来自人民日报语料库,由于在进行歧义消除的时候需要用到词的属性,所以在建立语料库的物理库时需要对词性进行标注。要建立一个基础词库,即所有的语料都会存储在基础词库中,消除歧义的过程中用到的属性词库有:名词、形容词、副词、动词、介词、连词、数量词、方位词等。另外在分词过程中还用到了临时词库,增加临时词库主要为了提高分词效率。又对现有的分词方法和消除歧义的方法做了介绍,列举出当前比较流行的分词方法和消除歧义的方法,然后详细说明了本文的实现方法,采用的是正向增字最大匹配和逆向减字最大匹配相结合的方法。因为增字过程可以获得很多信息,特别是字段的结构信息,对于知识处理有利。而减字最大匹配是由长到短依次进行的,见到词的字段即切分出来,对于切分比较长的词有利,为后续的知识提供整体信息。用这两种方法相结合,对于长词和短词都可以切分出来。对于出现歧义的情况再进行消除,在解决歧义的问题上,采用的解决交集型歧义的方法是根据词的属性,利用词法搭配规则进行消除歧义,对于组合型歧义我们对各种经常出现的词性分别做了相应的解决办法,如果这些方法未能生效,则采用统计分析的方法进行处理,即将文章中任意个数的字(小于等于规定最长词长L)同时出现的频率进行统计,出现次数越高的越可能是一个词。最后对未登录词采用统计分析的方法进行处理,主要用到了统计学中的概率的知识和算法,这样可以随时的更新词库,以便得到更丰富的词条信息。
其他文献
煤炭是我国重要的战略能源资源之一,对国民经济的发展和社会的稳定起着关键的作用。然而目前对于煤炭的开采由于种种原因造成了不断发生重大的和恶性的安全事故。因此,研制一套
学位
随着计算机和互联网的发展,在自然语言处理领域,以双语(或多语)平行语料库为基础的应用日益增多。除机器翻译方面的应用之外,平行语料库的建设对于双语词典编纂、词义消歧和跨语
在当今世界,企业信息化的要求越来越迫切,其中一个重要的方面就是企业的数据的管理。根据“进去的是垃圾,出来的也是垃圾”这条原理,为了支持正确决策,就要求所管理的数据可靠,没有
随着数据信息化步伐的日益加快,数据已经呈现出爆炸式的增长趋势,所以对数据进行有效、完整、安全的存储已经成为数据信息化过程中最关键的一步。目前被广泛应用的存储区域网(S
基于.NET框架和COBOL 2002语言标准,设计并实现了COBOL 2002集成开发环境(IDE)。研究了.NET的内存管理,编译模型,VSIP等相关的基本理论知识,提出了基于.NET框架的COBOL 2002集成
近年来,Web服务技术以其标准化协议和低耦合的优点得到快速发展,但是随着越来越多的企业和组织在各自的系统上部署和应用Web服务,不同组织的Web服务之间如何有效地进行信息共享
嵌入式RFID图书管理系统加速了流通处理的速度。RFID阅读器通过非接触方式采集信息,可同时读取多个RFID标签。这就意味着在进行借入或者借出处理过程中几本书籍可以同时处理,读
为了支持区域软件企业的相互交流、协作与信息共享,作者受委托开发了软件公共技术支撑平台系统。该平台基于Internet运行,具有信息收集、发布、检索、资源共享、技术交流与协