论文部分内容阅读
随着计算机和存储技术的发展,电子文本数据呈现出海量性和杂乱无章性。为了从大量杂乱无章的文本数据中获取有用的信息,人们需要利用文本分类技术对文档数据进行有效的组织管理。传统的分类技术包括有监督的分类和无监督的聚类。有监督的分类需要大量标注样本的指导,然而标注文本数据费时费力,大规模标注不切实际。无监督的聚类由于缺少标注样本的指导,其性能还有待于进一步提高。因此,只需要少量标注样本和大量无标注样本的半监督学习应运而生,并受到人们的广泛关注。本文针对半监督文本分类领域中存在的数据标注问题、文本表示问题和学习模型设计问题进行研究。我们的创新点主要体现在以下几个方面:(1)由于标注文本数据费时费力,本文研究如何在受限条件下选择待标注样本及对待标注样本进行合理标注。为了使抽取的待标注样本更符合原始数据的分布,本文避免选择已标注样本的K近邻作为新一轮的标注样本。这种方法在一定程度上减少随机标注可能出现的小范围标注稠密的情况,使得分布在不同区域的样本有更多的标注机会。而对待标注文档进行人工标注时,我们考虑文档中单词包含的丰富信息,标注出每篇文档的关键词,进而得到每个类的类别关键词,将未标注文档和类别关键词进行匹配,匹配到的文档作为新的监督信息。(2)通过研究,我们发现文本分类中的噪音单词在各类间分布较均衡。因此,本文提出了一种文本数据加权方法tf.sdf。该方法能够对类间分布不均衡的单词赋予较高的权重,对类间分布均衡的单词赋予较低的权重,进而消除噪音单词对文本分类算法性能的影响。为了在只有少量监督信息的情况下仍可对文本数据进行合理表示,本文将特征加权方法tf.sdf与基分类器相结合,给出了一种文本表示和分类相交互的半监督学习框架。这样,合理的文本表示能提高分类算法的性能,高性能的分类结果又能促进文本的更合理表示。(3)考虑不同类型的成对约束在非负矩阵分解中所起的作用不同,本文提出了一种基于成对约束的多类型惩罚的非负矩阵分解。在这种新算法中,must-link约束主要控制数据压缩表示下的距离,cannot-link约束主要控制样本类别指示向量的相似度。实验表明多类型惩罚的非负矩阵分解可以提高半监督文本聚类的性能。(4)为了扩大非负矩阵分解的应用范围,本文提出了一种基于成对约束的相似度矩阵分解方法,并在理论上证明了其收敛性。由于相似度矩阵分解的应用范围远大于基于原始数据的非负矩阵分解,本文将提出的方法应用于一般UCI数据、文本数据和社会网络数据。实验表明提出的基于成对约束的相似度矩阵分解方法好于其它半监督聚类算法。