论文部分内容阅读
随着电子商务的发展,网站上产品评论信息日益增多。消费者针对所购产品或服务表达观点、立场、看法,而这些观点、看法可以从不同方面反应产品或服务的品质。根据在线产品评论信息,意向消费者可以了解所需产品信息,商家也可以及时对产品或服务不足之处进行改进。由于以消费者为中心发表的评论信息比较杂乱,为便于其他消费者更好的了解产品信息以及商家及时获取用户反馈信息,对评论文本进行情感倾向分析分类是必要的。文本情感分析,主要是对文本的情感特征进行分析,为了有效提取文本情感特征,论文通过特征选择算法以及情感词典的方法进行提取,然后对文本进行分类。本文主要研究内容如下:(1)基于卡方统计的n-gram特征提取与冗余约简方法,对n-gram特征项之间存在冗余而影响实际分类效果的问题改进传统卡方统计算法,利用特征之间共现与不共现的关联性,选取具有关联性的n-gram特征;然后利用特征与类别之间的相关性,判别多元特征间是否冗余,并对冗余特征进行约简,从而选取高类别相关性而低冗余的n-gram特征。最后,对上述方法利用SVM算法在不同情感语料集上进行测试,实验结果表明该方法提高了文本情感分类的效率,验证了方法的有效性。(2)基于情感词典的方法,可以直接提取文本的情感特征,但情感词典的质量会影响分类的效果,且修饰情感词的上下文结构特征也会影响文本中情感词的极性。针对情感词典的构建以及情感词极性变化问题,提出基于产品属性的情感分类。该方法,首先利用Word2vec训练特征生成词向量,利用词向量之间的相似性对相似特征进行聚类,利用属性词与情感词的依存关系,提取属性词与情感词;然后,分析情感文本特征,构造领域情感词典,抽取文本的属性词、情感词以及其上下文结构特征;最后,结合SVM算法对文本进行分类,分析该方法对情感分类的影响,验证该方法对分类是有效的。在此基础上,分析LDA主题特征对文本情感分类的影响。为考虑情感特征的结构信息,提出结合n-gram模型生成n-gram特征的方法,同时对多元特征进行冗余约简。然后,将LDA主题概率作为特征,利用SVM算法在不同情感语料集上进行测试,分析不同n-gram特征结合LDA对文本分类的影响。最后,将该方法与不同的分类方法进行对比分析,实验结果表明该方法提高了文本情感分类的结果,验证了方法的有效性。