论文部分内容阅读
近年来网络信息随着互联网技术的发展在急剧增长,同时国家主席习近平也提出了互联网+的概念,因此在互联网中产生了大量、且具有研究价值的文本信息,如互联网参与人员发表的关于个人态度的一些主观信息,包括立场、建议、情绪等。对这些数据进行挖掘和研究具有很大的价值。文本情感分类就是对文本信息进行分析、研究的一种方法,目前主要文本情感分析方法主要分为两类,基于语义理解和基于机器学习的文本情感分类,而本文正是对其中的基于SVM机器学习的相关方法及算法进行研究。在本文中所进行的研究工作主要有以下三个方面:第一,对信息增益(IG)特征选择方法进行深入研究,并对其目前存在的问题提出了相关解决办法和方案。首先本文通过对相关文献的阅读和研究发现特征选择方法忽略了特征项在类别间和类别内分布对特征选择的影响,从而导致特征选择存在偏颇,因而本文在传统特征选择方法的基础上引入了类别内特征频率、类别间的特征频率两个计算因子,进而使其对文本特征进行更合理的选取,将此改进应用到文本情感分类中,寻求分类效率的提高,然后用实验进行分类结果验证。第二,对支持向量机(SVM)中核函数进行了研究,对常用的高斯核函数(RBF)进行微调,并将其应用到组合函数中。首先本文通过对基于SVM机器学习的文本情感分类的研究发现,核函数对将SVM文本情感分类结果具有很大的影响,进而进一步的对常用几种核函数进行了深入研究,发现RBF具有很好的性能,且组合核函数性能比单核更好。但RBF存在着远离测试点处泛化、学习能力衰减过快的问题,因而本文对其进行微调,再利用组合核的思想将调优后RBF分别与多项式核函数(Polynomial)和Sigmoid核函数进行线性加权组合,从而提高分类性能和精度。第三,基于以上两点的改进与优化,本文优化了传统的基于SVM的文本情感倾向分类模型,经过实验后结果分析表明,基于本文方法优化的SVM文本情感分类方法具有更好分类性能和精度。