论文部分内容阅读
随着计算机技术和互联网的迅速发展,网络评论的数量正在日益增加。人们既可以在商业网站,也可以在博客、微博、论坛等网络媒体上发表对产品的价格、性能和售后服务等方面的看法、建议以及意见。对于某一个流行的产品,若用户采用浏览方式获取大量的自己感兴趣的评论信息,显得力不从心。因此,自动、有效地对带有情感色彩的主观性文本进行分析处理,并对其进行归纳与总结,对于普通消费者、电子商务、网络监管等具有重要的理论意义和实用价值。本文重点研究基于Web汽车评论的情感聚类问题,在对Web评论文本数据的建立与评价搭配抽的基础上,分别针对文本的情感倾向和方面的情感倾向开展聚类研究。主要内容如下:(1)建立Web评论数据库本文首先获取相关的评论文本,并对评论文本数据进行分类统计和整理,建立评论文本数据库。结合领域本体知识,对评论文本中评价对象和评价词进行了定义和分析,并对评价对象间的共指关系进行了相应的分类。(2)基于评论文本的情感倾向聚类本文首先对文本进行特征向量化表示,并将评价词的情感倾向与句子的倾向结合,提出了线性带权的特征权重计算,最终采用K-Means方法,实现了文本的情感聚类。为了验证该方法的有效性,在真实汽车评论文本数据上进行实验,实验结果表明,特征进行情感倾向表示,相对于用布尔权重表示和LDA的特征权重表示,在聚类的纯度和F值上都有明显提高,说明本文提出的表示方法是可行且有效的。在情感倾向评价级别上,采用了差、较差、一般、较好、好五个评级,有利于人们更好的对相关数据的分析和应用。(3)基于方面的产品情感聚类为了对评价产品在更细粒度上进行研究,针对汽车领域的评论文本,从安全性、操控性、动力性、经济性、舒适性和服务性六个方面对汽车产品进行了情感聚类,给出汽车产品各个方面的特性和评价,不仅可以更加准确的、全面的了解观点持有者表达的真正意图,同时还可帮助决策者做出正确的决策。针对一篇评论文本中涉及多个评价产品的问题,本文结合汽车产品的领域信息,加入语义特征,在命名体识别的基础上,采用基于本体的方法对观点句进行了识别。观点句-评价对象/方面关联关系的融入,使基于方面的情感聚类的效果得到进一步改善。