基于时域信息异常检测的炒信刷单研究与实现

来源 :北京工业大学 | 被引量 : 1次 | 上传用户:szhg5583
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着全球电子商务的飞速发展,电商平台交易市场不断扩大。用户在电商购物平台进行的商品评论信息已经成为其他消费者购买各种商品的重要决策依据。目前大多数的电商购物平台只专注于处理有问题的评论信息,并没有从根本上杜绝卖家继续操作更多的虚假评论进行炒信刷单的行为。本文提出一种基于时间域异常检测的方法,预测参与炒信刷单的商品,为电商平台带来更好的用户体验。从而杜绝商家之间的不正当竞争,保护电子商务平台正常经营商家的权益。本文的主要研究内容如下:(1)商品评论数据的获取与处理。使用Python爬虫框架获取电商购物网站的商品评论数据,并且进行数据的清洗及存储工作。目的是获取实验所需的商品评论数据,使用数据分析方法对网站的商品评论数据进行深入的特征研究。(2)对商品的评论数据进行探索性分析。通过分析爬取到的商品评论数据分布,包括商品的评论数量分布、评论的打分分布、商品评论数的总体分布以及单个商品评论数的分布等。从数据分析的角度得到参与炒信刷单的商品和正常商品不一样的评论数据分布。(3)对商品评论数据构建数据集并进行量化处理。对用户的商品评论数据进行向量化处理,目的是通过爬取的数据集建立时序特征,把爬取到的商品评论数据进行量化描述,为数据的建模做准备工作。(4)基于迭代的孤立森林思想提出一种新颖的异常检测模型。通过借助商品的历史评论数据的分布变化,构建孤立树和孤立森林,并且不断更新孤立森林的参数。从而可以借助孤立森林的思想,判别出行为模式与正常商品评论数据分布不同的商品,从而准确定位异常样本点,检测参与炒信刷单的商品。(5)在真实的数据基础上对实验进行比较。在真实数据集上证明本文提出的异常检测模型的有效性。并且通过研究不同参数设定下模型效率的对比,证明本文提出的异常检测模型的实用性和高效性。本文旨在将商品交易信息量化,利用时间域数据异常检测的思想对商品评论数据进行量化处理并建模,利用孤立森林算法得出商品的异常得分值,从而更快更准确的检测商品是否存在刷单行为。本文使用的数据是真实的亚马逊数据集,提出的异常检测算法在炒信刷单商品研究中取得了90%以上的准确率,而效率也达到了能在10秒内检测上万个商品是否进行刷单行为,优于现有的其他异常检测方法。
其他文献
<正>进行钢材配送,为终端客户提供准时交货的加工配送服务,长期以来一直是欧洲、美国和日本的钢厂、钢材加工流通商和综合商社成熟的钢材营销模式。近些年来,随着国内现代物
绿色能源一直是科技发展中一直不断探讨的话题。水力发电、风力发电、光伏发电,地热发电等新能源逐渐走上世界的舞台。温差发电作为一种新兴的绿色能源技术走进人类的视野。
目的:探讨颅脑损伤患者的社会功能损害情况及其相关因素,比较有和无脑器质性损伤患者的社会功能及精神障碍发生情况,从社会功能的角度,为颅脑损伤程度以及精神损伤鉴定提供实
评价是小学英语课堂教学的重要组成部分,是达成课堂教学目标的重要保障。课程标准指出评价体系要体现评价主体多元化和评价形式的多样化。目前小学英语教师的课堂教学评价意
本文就果树上常用的DNA分子标记的原理和特点进行了介绍,并对其在果树的种质资源、遗传育种研究中的种质资源的保存、品种鉴定、亲缘关系的演化及分类、遗传多样性分析、系谱
目的了解葡萄糖-6-磷酸脱氢酶(G6PD)基因启动子区甲基化改变特点,探讨甲基化改变与G6PD缺乏症的关系。方法将2013年8月至2014年7月期间195例贫血查因或体检儿童分为G6PD缺乏
可控震源具有“安全、环保、经济、优质”的作业特性,适合多种探区的地表、环保、安全等要求,而且激发频率与能量可控,有利于地震子波优化,提高地震资料品质。近几年来在西部
以某型发动机叶片为研究对象,对该零件进行结构加工工艺分析,制定合理的加工工艺卡,利用UG NX软件的CAM功能实现了该零件的数控编程和仿真加工,通过虚拟加工过程仿真检查刀具
习得性无助是美国心理学家Seligman于1967年首次提出,它是指“因为重复的失败或惩罚而造成的听任摆布的行为,它是通过学习形成的一种对现实的无望和无可奈何的行为和心理状态”。随着习得性无助相关理论被广泛地应用在教育教学领域,研究对象涉及不同年龄段的青少年及儿童,本研究选择笔者所在的高等职业学校护理专业2018级五个班级的学生作为初试研究对象,运用调查问卷、个别访谈及学业水平测试等方法展开护理英