论文部分内容阅读
语料库和词典是进行自然语言处理研究的重要资源.语言学的研究必须以语言事实作为依据,语言现象的复杂性决定了要全面的了解其特点必须有大规模语料库的支持,否则只能是无源之水、无本之木.尤其是随着统计模型在自然语言处理领域的应用,大规模语料库的作用更加突出,无论对于语言现象本身的研究,还是对于信息检索、机器翻译、文本分类、自动分词等应用系统的研究和开发,都具有非常重要的意义.同样,词典开发不仅是自然语言处理研究的基础性工作,也是字典编篡、语言教学等工作的重要环节.因此,该论文从事的大规模平衡语料的收集和分析工作,以及在该工作基础上开展的文本分类技术研究,具有重要的理论意义和实用价值.该文首先在欧共体项目(LC-STAR)的资助下,开展了大规模汉语平衡语料的收集与分析工作,其主要目的是建立一个反映现代汉语语言特点的、适用于汉语语言分析、语音识别和语音合成的汉语标注语料库,并以此为基础建立一部相应的信息词典.该工作主要包括:(1)在对大规模汉语平衡语料收集方法进行调研和分析的基础上,收集并标注了规模达3087万字的汉语平衡语料;(2)以收集的语料为基础,建立了一个大规模(10多万词)的现代汉语信息词典,词条标注信息包括词性、注音、词频和专用词的领域信息等.以上述工作为基础,我们对文本分类方法进行了深入的研究,主要创新包括:第一,在特征权重计算方面,通过对常见特征权重算法的分析和比较,提出了在TF*IDF算法中用TF的n次方代替TF,并引入DBV变量的处理方法,使得该算法的F1-Measure测度提高了4~5﹪.第二,类似于上面的处理方法,在TF*IWF算法中用TF的n次方代替TF,并引入DBV变量,使得该算法的F1-Measure测度提高了12.28﹪.第三,在特征向量抽取方面,在Rocchio分类器上对常见的特征向量抽取方法进行了全面对比,然后提出了将TF*ID算法用于特征抽取的处理方法,并通过实验证明,该方法在不同数目关键词下的分类效果均优于其它常见的特征向量抽取算法.