论文部分内容阅读
语料库是研究中文信息处理的基本语言资源。没有语料库的支持,中文信息处理的研究将会寸步难行。语料库在自然语言处理的许多方面都有重要的应用价值,语料库的建立为语言学的研究提供了丰富的语言现象,人们通过语料库观察和把握语言事实,分析和研究语言系统的规律,为计算语言学学者从加工的语料库中获取语言知识、建立语言模型、研究语言信息处理技术,提供了翔实的语言信息数据。语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。
建设高质量的大规模语料库是中文信息处理领域的基础性工程,是对任何建立在此基础上的其它研究的成果的重要保障。迄今在世界范围内,一个真正经得起各方面推敲并形成一定影响的大型汉语分词语料库严格说来还没有。问题的要害在于分词语料库的质量。而衡量质量的重要标准之一是分词后的语料库是否具有比较高的一致性。
在生成语料库的过程中,因为多种主观与客观原因,不可避免地会产生切分不一致现象,对大型语料库而言,这个现象更为明显。
目前,人们对分词进行了大量的研究,提出了很多有效的切分算法,但对分词结果不一致现象研究的报道不多。因此为了提高语料库的切分质量,本文对切分不一致进行了探索研究。
本文在对语料库中真实发生的切分不一致现象进行了调查研究、统计分析,总结了切分不一致产生的主观与客观原因,主要做了以下的工作:
1.对150万汉字的熟语料进行了统计分析,总结了语料库中分词结果不一致的主要结构类型。
2.提出了规则分类的方法。对具有明显结构特征的切分不一致字串,用人工归纳的19条规则,来进行分类、标记处理。规则的分类方法对语料库中近50%的字串能够有效地进行分类,说明了规则的有效性。
3.提出使用统计的方法:互信息与假设检验-t检验,结合最近邻分类方法对100万的实验数据进行测试计算,获得了切分不一致字串的概率分布与特征向量。使用这种定量的方法对具有明显概率分布的字串进行分类标记。
4.对数据进行了实验,把人工标记结果当作评价系统的标准答案,得出了分类正确率CP与标记满意度AV。验证了规则与统计相结合的、最近邻分类方法为补充的分类方法的有效性。
在统计与分析数据的基础上,对具有不同特征的不一致字串提出了多种分类方法,层层递进的处理策略,取得较好的分类效果。对一个语料库中发生了切分不一致的字串进行分类处理,把相同结构的、具有相似词法或语法作用的切分单位聚成一类,可以方便地对于同类的不一致字串采取一致的处理策略,在一定程度上能够使具有相同结构字串的切分形式趋于一致。我们的目标是最后形成一个具有分类标记的不一致字串库,库中记录具有类别标记与切分形式的建议标记。通过实验,使用文中的方法进行分类,获得了76%的分类正确率。