一种基于AdaBoost和SVM的短文本分类模型

来源 :河北工业大学 | 被引量 : 5次 | 上传用户:xiaohan5213250
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于社交媒体的出现,人们在工作生活中需要面对大量短文本形式的信息。如何快速精确地获的人们所需的内容,已成为一个亟待解决的问题,传统文本分类技术虽然可以在一定程度上解决这些问题,但存在分类效果不好、泛化性能不强等缺点,这是因为短文本的内容少、高维性和特征稀疏,传统分类模型不能很好地进行短文本分类,故需要对短文本分类技术进行深入的探究。本文所提出的短文本分类模型,一定程度上解决了传统分类算法不适合短文本分类的缺点,本文完成的主要工作如下:(1)因为支持向量机(SVM)对多类数据集的分类效果不好且泛化能力较差等问题,本文通过引入AdaBoost算法和PSO算法,提出了一种AdaBoost-PSOSVM分类算法,此算法首先用PSO对SVM参数进行优化(PSOSVM),其次用AdaBoost算法集成PSOSVM分类器,得到一种强分类器(AdaBoost-PSOSVM)。通过实验验证了该集成分类器能在一定程度上可提高分类性能,且明显高于PSOSVM和SVM单独对UCI数据集进行分类时的分类性能。(2)本文结合χ~2统计量和遗传算法具有易于并行化处理同时防止产生局部最优解的优点,提出了一种基于遗传算法和χ~2统计量的短文本特征选择方法(FEGAX),该方法基本思路是首先采用χ~2统计量从原始文本集中选择特征,得到特征预选集,其次采用遗传算法进行第二次特征选择。实验结果表明了该特征提取算法提高了SVM的分类质量。(3)为了解决短文本存在特征稀疏会影响分类效果的缺陷,本文在短文本预处理和FEGAX特征选择之后,使用LDA主题模型来扩展特征,首先利用LDA主题模型训练短文本并获得相应的主题分布,然后把概率最大的主题中的主题词作为部分特征补充到经过FEGAX选择的特征集合中,最后使用AdaBoost-PSOSVM算法进行短文本分类实验,并与PSOSVM算法和SVM算法作对比,实验结果表明,在不同类别的短文本数据集上,AdaBoost-PSOSVM算法的分类效果明显好于PSOSVM算法和SVM算法,AdaBoost-PSOSVM算法具有良好得分类效果和优秀的泛化性能。
其他文献
漳泽水库现行的汛限水位偏低,造成近年来汛期弃水较多,随着长治经济和社会发展,用水需求越来越大,供求矛盾日益尖锐。漳泽水库大坝经过改建和安全鉴定,能够提高汛限水位,从而提高供
根据对混凝土砖的检测及相关标准的研究认为:《轻集料混凝土小型空心砌块》(GB/T15229)不能作为用建筑垃圾生产的“自保温轻集料混凝土砖”产品标准,《混凝土小型空心砌块试验方
目的探讨基层医院心理健康辅导在2型糖尿病治疗中的作用。方法采取单独谈话交流方式,以资讯方式对患者进行调查。结果在两组患者治疗性依从比较和血糖控制达标率方面,糖尿病患
垣曲因境内群山如垣,而且又地处于黄河九曲之一的地方而得名。春秋时为东山皋落氏部族,战国时属魏国称为王垣,因其地近王屋山而得名。西汉时称为垣县,《博物记》云:“山在县东状如
通过对项目建设区进行调研,制定了相应的工程质量监督管理的对策措施.有力地促进了建设项目的工程质量。