论文部分内容阅读
文本自动分类是基于内容的信息自动分类的核心技术,它是由计算机自动判别文本类别的过程。文本分类问题具有文本向量稀疏性大、维数高、特征之间具有较大的相关性的特点,因此,支持向量机非常适合于文本分类问题,在文本分类中具有很大的应用潜力。同时,文本分类也给支持向量机提出了许多富有挑战性的课题。例如,文本分类具有类别和样本数目多、噪音多等特点,支持向量机用于文本分类时存在训练和分类速度较慢等缺点。 本文从降低文本分类过程中文本向量数目的角度出发,来加快训练支持向量机分类的速度。采用密度聚类的方法提取原始样本中对分类起决定性作用的样本作为新的训练集进行分类器训练。这些起决定性作用的样本点就是分布在边界上的点,这些点在SVM理论里被称为支持向量。本文的目的就是尽可能的将这些点从原始文本向量集中提取出来。 如果将常见的密度聚类算法直接拿来使用,效果并不好,因为它们的时间复杂度太高,导致整体的分类训练过程效率比较低。本文采用一种改进的密度聚类算法,该算法融合了层次聚类算法CURE的特点,既保留密度聚类算法对边缘点比较敏感的特性,又降低了算法的时间复杂度。同时,本文通过大量的试验得出了针对文本分类样本的高维性特点,在对其进行密度聚类时初始参数的动态设置方法,从而在一定程度上解决了以前只能通过人工估算来确定参数值时效率低下,实际应用效果不佳的弊端。