论文部分内容阅读
网络产品评论可以是网民在不受约束的情况下随意发表的,这种随意性造成了这些产品评论中充斥了大量的无用的、不真实的信息。这些信息就是垃圾评论。无论是在消费者参考网络评论购物时,还是在商家根据这些评论获取相应评价分析时,这些垃圾评论都严重影响了他们获取有用信息。垃圾评论的自动识别对于消费者和商家都是一项迫切需要的工作。本文采用数据挖掘技术针对电子产品的垃圾评论识别进行了研究,主要工作包括:先处理很短的产品评论评,建立情感词词典,然后根据词典区将垃圾评论识别出来。根据产品说明书构建产品特征词词典。之后,构建产品评论特征,这些特征包括:产品相关程度、超链接特征、连续数字特征、咨询特征。根据评论特征构建了KNN分类器,进行垃圾评论的识别。本文对KNN分类器进行改进,以提高垃圾评论识别的准确率和加快垃圾评论识别的速度。本文从采用动态k值和对距离公式加权两个方面改进KNN分类器。有些虚假评论和广告的内容和正常评论近似,但往往会重复发帖。因此本文垃圾评论最后一步是重复评论识别。本文采用2-gram模型来表示评论文本,同时采用Katz平滑方法对模型进行平滑,最后结合KL散度对其进行识别。首先将评论文本按照评论长度和情感词数量进行排序,然后只计算在队列中邻近文本的相似度,从而减少了相似评论文本识别的计算量。本文采集新浪网站上苹果iPhone4S产品对本文方法进行了验证,实验结果证明了本文方法的有效性。