面向大数据应用的情境感知异常检测算法研究

来源 :兰州大学 | 被引量 : 2次 | 上传用户:JGTM2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据挖掘是从海量、异构数据中挖掘潜在信息和知识的复杂过程。海量数据中不可避免地存在一些与其他数据的行为模式不一致的异常值,而针对异常值或者离群点的识别和挖掘称为异常检测。如何快速有效地检测出海量数据中的异常值已成为大数据分析挖掘领域的研究热点问题之一。然而,现有通用的异常检测方法往往无法有效地刻画特定领域异常数据的特征和分布。同时,诸多异常数据是在多重情境因素的综合作用下而产生的,故针对不同的异常检测目的应选择特定的异常检测方法。总之,如何面向特定领域和检测目的来设计特定的异常检测方法是一个亟需解决的重要研究问题。本文面向Web服务推荐和交通大数据等两个特定领域,提出了两种情境感知的异常检测方法,主要研究内容包括:第一、在Web服务推荐领域,基于海量Web服务调用记录数据,提出了基于真异常值删除的情境感知Web服务个性化推荐算法(Context-Aware Web Services Recommendation of True Abnormal Data Elimination,简称CASR-TADE)。算法通过对用户和服务的相似度挖掘,获取相似情境下Web服务调用记录,同时引入真、假异常值的概念,构建了基于真、假异常值的判断和处理模块,从而为用户推荐个性化的Web服务。第二、在交通大数据领域,基于海量车牌识别数据,提出了情境感知非法营运车辆识别算法。基于620万车辆的3.36亿个过车记录大数据来提取车辆轨迹数据中车辆出现的位置和时间情境提取车辆日常行为特征和持续行为特征,从而利用提取的车辆特征和有监督的异常检测方法构建了非法营运车辆的识别算法。第三,将上述两个算法分别应用于Web服务推荐数据集WSDream和厦门市车牌识别数据集,通过大量实验和验证,分别验证了两个异常检测算法在特定领域的有效性。本文面向特定领域大数据应用的特点和数据特征提出了两种异常检测算法,一方面为面向特定领域的异常检测应用提供了新思路,另一方面为推荐系统、智能交通系统等领域的异常检测应用提供了大数据决策支持。
其他文献
环核苷酸是机体中广泛存在的一种重要活性物质,枣中发现的环磷酸腺苷(cAMP)和环磷酸鸟苷(cGMP)具有增强免疫、改善肝功能等活性作用。结合相关的研究进展,综述了枣果中环核苷
包装机械行业作为向食品工业提供装备的工业,在国内形成于20世纪70年代末与80年代初,经过80年代的快速发展,90年代的高速增长,通过引进、消化吸取、国产化,目前已进入结构调
国家标准GB 50567—2010《炼铁工艺炉壳体结构技术规范》第7.2.3条强制性条文对高炉炉壳开孔截面面积比例及孔间边缘的净距进行了规定。根据炼铁工艺专业的要求,有的现役高炉
生物质锅炉低温过热器结焦将降低机组出力并影响机组安全运行针对生物质发电厂低温过热器结焦的难题,通过对广东粤电湛江生物质发电厂的锅炉研究分析,提出了控制低温过热器结
目前压力容器已经在工业生产内广泛应用。一般情况下,大容量的压力容器与承压设备长期在多样化的负荷条件下运行,非常容易出现各种疲劳性裂纹,对工业生产造成严重影响。所以,
目的探讨采用非布司他治疗高尿酸血症所致慢性痛风的有效性。方法选取2017年4月-2018年12月黑龙江省牡丹江市第二人民医院风湿免疫科收治的高尿酸血症所致慢性痛风患者100例
随着城镇化的大力推进,老旧小区的改造提上议程。近期,住房和城乡建设部经过摸底排查,各地上报需要改造的城镇老旧小区有17万个,涉及居民上亿人。从调查和各地反馈看,加快改
【正】 本文不打算深入地分析中国社会的各个微观领域,只想纲要式的提供一个看待中国现实社会的框架。一、社会类型任何一门社会科学对人类社会的分析研究都既可以从整体上入
【正】 (五) 生产资料供给制度1981年11月14日陆定一就社队工业发展中的问题写信给胡耀邦说:“社队工业,国家不管,放任自流,盲目发展。技术靠上海回来的老工人,机器是工人所
目的观察构建脊柱外科康复护理模式的措施和效果。方法选取2017年8月~2018年8月我院收治的脊柱外科患者64例作为研究对象,按照是否给予脊柱外科康复护理模式将其分为对照组(