论文部分内容阅读
随着网络的发展,数字化信息迅速增加,人们对中文信息的处理也越来越关注,同时,现代汉语信息的处理和研究也显得尤为重要,计算机自动分词是现代汉语信息处理的重要组成部分,也是基础的工作。衡量一个分词算法或分词系统的优劣主要在于分词的正确率和速度。其中,分词的正确率尤为重要。我们认为影响分词正确率的因素有两个:(1)歧义切分问题;(2)汉语姓名、地名、机关名等专有名词。对于词库的分词方法而言,影响分词的速度主要因素在于:(1)词库的规模和结构;(2)匹配选词的实现技术。因此,选择一个适当的分词方法,并用必要的手段解决切分难点是提高分词系统正确率和分词速度的关键。常用的分词方法主要有机械匹配法,如最大匹配法、逐词匹配法等等;语义分词法,如综合匹配法、语法分析法等。
首先对语料库的建立进行介绍,用到的语料主要来自人民日报语料库,由于在进行歧义消除的时候需要用到词的属性,所以在建立语料库的物理库时需要对词性进行标注。要建立一个基础词库,即所有的语料都会存储在基础词库中,消除歧义的过程中用到的属性词库有:名词、形容词、副词、动词、介词、连词、数量词、方位词等。另外在分词过程中还用到了临时词库,增加临时词库主要为了提高分词效率。又对现有的分词方法和消除歧义的方法做了介绍,列举出当前比较流行的分词方法和消除歧义的方法,然后详细说明了本文的实现方法,采用的是正向增字最大匹配和逆向减字最大匹配相结合的方法。因为增字过程可以获得很多信息,特别是字段的结构信息,对于知识处理有利。而减字最大匹配是由长到短依次进行的,见到词的字段即切分出来,对于切分比较长的词有利,为后续的知识提供整体信息。用这两种方法相结合,对于长词和短词都可以切分出来。对于出现歧义的情况再进行消除,在解决歧义的问题上,采用的解决交集型歧义的方法是根据词的属性,利用词法搭配规则进行消除歧义,对于组合型歧义我们对各种经常出现的词性分别做了相应的解决办法,如果这些方法未能生效,则采用统计分析的方法进行处理,即将文章中任意个数的字(小于等于规定最长词长L)同时出现的频率进行统计,出现次数越高的越可能是一个词。最后对未登录词采用统计分析的方法进行处理,主要用到了统计学中的概率的知识和算法,这样可以随时的更新词库,以便得到更丰富的词条信息。