论文部分内容阅读
由于社交媒体的出现,人们在工作生活中需要面对大量短文本形式的信息。如何快速精确地获的人们所需的内容,已成为一个亟待解决的问题,传统文本分类技术虽然可以在一定程度上解决这些问题,但存在分类效果不好、泛化性能不强等缺点,这是因为短文本的内容少、高维性和特征稀疏,传统分类模型不能很好地进行短文本分类,故需要对短文本分类技术进行深入的探究。本文所提出的短文本分类模型,一定程度上解决了传统分类算法不适合短文本分类的缺点,本文完成的主要工作如下:(1)因为支持向量机(SVM)对多类数据集的分类效果不好且泛化能力较差等问题,本文通过引入AdaBoost算法和PSO算法,提出了一种AdaBoost-PSOSVM分类算法,此算法首先用PSO对SVM参数进行优化(PSOSVM),其次用AdaBoost算法集成PSOSVM分类器,得到一种强分类器(AdaBoost-PSOSVM)。通过实验验证了该集成分类器能在一定程度上可提高分类性能,且明显高于PSOSVM和SVM单独对UCI数据集进行分类时的分类性能。(2)本文结合χ~2统计量和遗传算法具有易于并行化处理同时防止产生局部最优解的优点,提出了一种基于遗传算法和χ~2统计量的短文本特征选择方法(FEGAX),该方法基本思路是首先采用χ~2统计量从原始文本集中选择特征,得到特征预选集,其次采用遗传算法进行第二次特征选择。实验结果表明了该特征提取算法提高了SVM的分类质量。(3)为了解决短文本存在特征稀疏会影响分类效果的缺陷,本文在短文本预处理和FEGAX特征选择之后,使用LDA主题模型来扩展特征,首先利用LDA主题模型训练短文本并获得相应的主题分布,然后把概率最大的主题中的主题词作为部分特征补充到经过FEGAX选择的特征集合中,最后使用AdaBoost-PSOSVM算法进行短文本分类实验,并与PSOSVM算法和SVM算法作对比,实验结果表明,在不同类别的短文本数据集上,AdaBoost-PSOSVM算法的分类效果明显好于PSOSVM算法和SVM算法,AdaBoost-PSOSVM算法具有良好得分类效果和优秀的泛化性能。