基于半监督学习的虚假评论检测方法研究

来源 :南京信息工程大学 | 被引量 : 2次 | 上传用户:zhaojuan2582
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术与网络平台的迅速发展,越来越多的用户喜欢通过电商平台进行网上购物。由于线上购物使用户无法直接接触商品实体,以及商家所给商品信息并不完全可信,用户的商品评论对于其他用户和企业具有重要的参考价值。这促使了虚假评论的产生,其刻意赞美或恶意诋毁某一产品,而且与用户真实经历体验后发布的评论不相符。这些虚假评论危害性极大,严重损害了用户与正常商家的利益。因此,有效识别出虚假评论已成为一项急需解决的任务。现有的虚假评论检测技术通常以大量的标记数据为基础,采用监督学习的方法检测。然而人工标记数据耗时耗力,在真实场景中大规模标注评论是不可取的。因此,有必要研究如何使用较少的标记数据来检测虚假评论。针对于上述情况,本文从特征提取和模型训练算法方面展开对虚假评论检测的研究,做出的主要工作如下:(1)从特征提取方面对虚假评论检测展开研究,根据用户真实购买商品的场景,提出了一种基于用户浏览记录的用户行为特征—商品浏览相关度,利用用户评论前的浏览商品记录与其浏览类似相关商品记录来描述用户购买的真实度。本文通过Amazon等实验数据集验证了包含浏览相关度的用户行为特征和文本特征对于检测有更好的效果。(2)从模型训练算法方面出发对虚假评论检测进行研究,本文提出了一种基于垂直集成的改进Tri-training算法(Vertical Ensemble Tri-training,VETT)。该算法主要是保存每次迭代过程中的分类器,利用分类器之前迭代的数个分类模型间的多样性集成训练出此次迭代的初代分类器。该方法重用了迭代过程中的分类器,并不增加过多的时间与空间开销。实验结果表明了VETT算法对于检测虚假评论有着更好的效果。(3)考虑到改进的算法依然存在初始分类器性能较弱以及分类器迭代的多样性不明显,本文利用基于委员会的主动学习来解决,在迭代中利用主动学习挑选不确定性和差异性最大的样例进行标注,提高分类器性能,并选取Amazon数据集和黄金数据集进行实验,验证了主动学习对本文虚假评论模型的检测性能有很好的效果。
其他文献
1981年内地第一家物业管理服务企业在深圳诞生。1991年,内地首个业主委员会在深圳天景花园成立。“业主自治”一词最早出现在1994年的《深圳经济特区住宅区物业管理条例》(以
目的通过对CD4、CD40分子作为脊柱结核靶向治疗靶标分子的可行性及靶向性能进行实验研究,来探讨脊柱结核分子靶向治疗的可能性。方法(1)使用感染复数(Multiplicity of infection,MOI)为10:1的荧光结核分枝杆菌(H37Ra-GFP)感染T淋巴细胞(CD4分子)与成骨细胞(CD40分子),并测定二者感染细菌的能力及感染细菌后分泌肿瘤坏死因子-α(TNF-α)的量。(2)将
阿尔茨海默症(Alzheimer’s disease,AD)是一种神经系统退行性疾病,是老龄化社会的重要疾病。AD的特征性病变主要包括:Aβ累积形成脑内淀粉样斑块,神经纤维缠结,以及选择性胆
山东省茌平县杜郎口中学校长崔其升说过:“学生最大的悲哀是依赖,教师最大的悲哀是包办。”其实,学生规则意识的培养也一样,不是教师提出要求学生就会遵守,规则意识只有在不断练
报纸
我国食产业构成之一是食醋产业,四大醋品牌之一的老陈醋其源产地和主产地则是清徐,清徐食醋生产基于当地文化底蕴、自然资源优势的基础上快速发展,但是清徐醋业近年来发展困
目的:观察电针治疗多发性骨髓瘤化疗性周围神经病变的疗效和安全性,并通过检测入组患者血清中mi RNA-21的表达水平,探讨电针治疗多发性骨髓瘤化疗相关周围神经病变的可能机制
以生活世界理论来审视,通识教育课程的本质呼唤生活世界关怀。通识教育课程要从塑造“知识渊博的人”向培养“现实生活的人”转变,突出通识教育课程的生活意义和价值,生活世
西南地区强震、高地应力、高渗压以及强卸荷等复杂地质环境使得高边坡变形稳定问题突出。工程实践发现,在边坡发生破坏前一般会有持续的非线性变形阶段。揭示边坡变形与破坏
随着电子商务的发展,在线产品的评论变得越来越重要,商品的评论能够为购物者提供非常有价值的购买决策。部分商家受到巨大经济利益的驱使,雇佣虚假评论人故意编造不真实的评论去扭曲竞争对手产品声誉,或提升商家产品的声誉。这种现象的层出不穷使得虚假评论人共同合作扭曲一系列目标产品信息/用户体验的团队作弊模式,成为一种主要的虚假评论作弊行为。前人对这一模式的论文研究主要利用评论人、产品评论和产品构成的网络结构效
<正> 据悉,最近在广州市芳村举行的“中国广州国际观赏鱼、宠物大赛”中,一千多条名贵观赏鱼精品同台竞美,最后评出金鱼、锦鲤、七彩神仙鱼、孔雀鱼和罗汉鱼等五个组别的单项