基于数据挖掘技术的产品垃圾评论识别研究

被引量 : 0次 | 上传用户:lhy_287229489
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络产品评论可以是网民在不受约束的情况下随意发表的,这种随意性造成了这些产品评论中充斥了大量的无用的、不真实的信息。这些信息就是垃圾评论。无论是在消费者参考网络评论购物时,还是在商家根据这些评论获取相应评价分析时,这些垃圾评论都严重影响了他们获取有用信息。垃圾评论的自动识别对于消费者和商家都是一项迫切需要的工作。本文采用数据挖掘技术针对电子产品的垃圾评论识别进行了研究,主要工作包括:先处理很短的产品评论评,建立情感词词典,然后根据词典区将垃圾评论识别出来。根据产品说明书构建产品特征词词典。之后,构建产品评论特征,这些特征包括:产品相关程度、超链接特征、连续数字特征、咨询特征。根据评论特征构建了KNN分类器,进行垃圾评论的识别。本文对KNN分类器进行改进,以提高垃圾评论识别的准确率和加快垃圾评论识别的速度。本文从采用动态k值和对距离公式加权两个方面改进KNN分类器。有些虚假评论和广告的内容和正常评论近似,但往往会重复发帖。因此本文垃圾评论最后一步是重复评论识别。本文采用2-gram模型来表示评论文本,同时采用Katz平滑方法对模型进行平滑,最后结合KL散度对其进行识别。首先将评论文本按照评论长度和情感词数量进行排序,然后只计算在队列中邻近文本的相似度,从而减少了相似评论文本识别的计算量。本文采集新浪网站上苹果iPhone4S产品对本文方法进行了验证,实验结果证明了本文方法的有效性。
其他文献
随着国家对幼儿教育的发展的重视度增加,人们对于幼儿环境空间的规划也开始逐渐重视起来。幼儿园的环境对于孩童来讲是他们长大后接触到的第一个“小社会”,对于幼儿来说算得上
随着市场竞争的日趋激烈,企业间的竞争越发的表现为品牌的竞争,品牌也成为谈论较多的话题之一,军工企业也不例外。随着中国军工企业的快速发展,尤其是军工企业民用产品市场份额的
近几年来,微博作为新型媒体交流平台给网络发展上带来了强大的影响力。随着微博的扩大,许多传统媒体也加入了线上微博的浪潮,寄希望通过微博在扩大其媒体影响力的同时,也能够为线
企业管理的研究范畴当中,在经历了“成本中心论”、“产值中心论”、“销售中心论”后,“客户中心论”终于浮出水面。客户关系管理是“客户中心论”的代表和核心内容。微观上,
近年来,网络结构与演化机制已成为复杂网络研究的一个主要问题。学者们对于复杂网络的研究涉及到物理学、生物学、经济学、信息学等越来越多的学科。如何通过对于已观察到的网
在"全国建筑业科技进步与技术创新成果经验交流与表彰大会"上,中国建筑业协会会长郑一军强调:不断取得高质量的科研成果和行业技术进步水平的持续提高,才是我们应当坚持不懈
<正>翻转式教学模式(Flipped Class Model)是一种新型的教学模式,它自2007年以来,随着互联网的普及在美国中小学中流行。翻转课堂以其精简的视频、明确的教学信息、学生学习
<正>新时期护理模式的转变和整体护理的实施,对护士的专科护理水平提出了更高的要求。针对近年来部队医院护士流动大这一状况,我们自2004年以来在科内采取护士分组、分班次随
信息化为基层党组织开展活动提供了新的工作载体,对推动党内民主的发展,提高党务管理水平,建设学习型、服务型、创新型基层党组织具有重要意义。当前基层党组织在运用信息技术上
早在2011年初,《刑法修正案(八)》的出台就曾引起人们对贪污贿赂犯罪死刑是否正当的辩论。党和国家在十八大之后继续严厉打击贪污腐败犯罪,众多贪腐官员纷纷落马,不乏有人被依法判