论文部分内容阅读
随着Web信息量的快速增长,如何有效的从庞大的信息中挖掘出有价值的信息变得越来越困难,面对这种需求,利用计算机进行智能信息处理便得到了广泛的研究。文本自动分类和相似度计算作为信息抽取、信息检索和自然语言处理等领域的研究热点,得到了快速的发展和广泛的应用。近几年,机器学习的方法被广泛的应用于文本自动分类上,与传统的文本分类技术相比,具有更好的研究效果和应用价值。在文本分类过程中,由于数据偏斜和噪音数据造成的影响,训练文本不能完全拟合整个特征空间的分布情况,因此,要想获得很好的分类性能仅仅采用传统的分类技术是行不通的;另外,特征选取是影响文本分类性能的重要因素,特征空间维度过高会导致分类过程中计算量非常大,耗费庞大的存储空间,若降维效果不理想也会直接影响分类的最终效果。为了更好的解决上述问题,本文在文本自动分类中引入了一种新的LDA概率主题模型,通过LDA模型对文本集建模,挖掘文本集中潜在的语义关系,将数据空间映射到维度较小的主题空间上,然后结合支持向量机分类算法训练分类器,最终实验结果显示该方法明显改善了文本分类的效果。本论文主要包括了如下三个研究内容:1.引入了一种近几年来非常流行的LDA概率主题模型。针对大规模文本语料库,在各类训练语料集上使用LDA模型对其建模,发现隐藏在文本集中的主题信息,采用Gibbs抽样算法推导估计模型参数,有效地从大规模文本集中抽取主题,最终获得文本集隐含的关于文本主题的混合分布,大大降低了表示空间的维度和训练分类学习器的时间。2.将LDA模型引入到文本相似度中是本文研究的重点内容之一,该方法采用上述LDA模型拟合文本数据集,获得隐含的文本主题维度矩阵,通过JS距离公式计算各文本之间的相似度大小,最终对计算获得的结果进行聚类实验,实验结果表明该方法明显好于基于向量空间模型的计算方法。3.将LDA模型引入到分类方法中,同时结合支持向量机分类算法,是本论文研究的另一个重要内容,该方法充分利用了LDA模型强大的文本表示和降维能力,并且发挥了SVM高效的分类性能,对每一类文本集进行LDA建模,构造子LDA模型,然后利用SVM算法对所有的子LDA模型训练分类器,实验结果说明该方法明显好于传统的文本分类技术。