论文部分内容阅读
近些年来,随着Internet的迅速发展,出现了大量的自然语言文本,如何在这些信息中提取对我们有用的信息已经成为当前研究的一个热点问题,同时这也是文本自动分类的主要任务之一。几何级数增长的电子文本、海量信息在日常生活中的传播,都迫切的需要我们对这些文本进行自动分类。使用文本自动分类系统可以帮助人们自动检索文本,以及判断文本的类别。分类问题是实际应用中普遍存在的问题,随着信息技术的快速发展,对其在理论研究和实际应用中提出了新的难题和挑战。建立在统计学习理论基础上的支持向量机是一种新型的机器学习方法,它根据有限的样本信息在模型的复杂度和期望风险之间寻求最佳方案,从而获得比较好的泛化性能。与传统的学习方法相比,SVM具有对维数不太敏感、收敛到全局最优点、泛化能力强等的优点,比较好的解决了传统算法中经常出现的维数灾难、局部极值、过学习等的棘手问题,逐渐成为近几年机器学习领域中一个非常活跃的研究热点。本文首先介绍了文本自动分类技术在国内外的研究现状;其次对文本自动分类所涉及的关键技术,包括中文文本分类的过程、中文分词方法、特征提取、特征项权重的计算方法以及几种比较常用的分类算法,分别进行了研究和探索;再次对SVM理论进行了概括性的介绍,包括统计学习理论、SVM的最优分类面、各种情况下的分类情况、SVM的核函数以及分类步骤等;接下来是构建一种SVM分类器,介绍了中文文本自动分类系统的总体框架,系统流程和各个功能模块;最后对分类系统中基于不同算法的分类器分别进行实验比较,着重对SVM算法中基于不同的核函数在不同的特征提取函数下的实验效果做了对比。