论文部分内容阅读
大数据挖掘是从海量、异构数据中挖掘潜在信息和知识的复杂过程。海量数据中不可避免地存在一些与其他数据的行为模式不一致的异常值,而针对异常值或者离群点的识别和挖掘称为异常检测。如何快速有效地检测出海量数据中的异常值已成为大数据分析挖掘领域的研究热点问题之一。然而,现有通用的异常检测方法往往无法有效地刻画特定领域异常数据的特征和分布。同时,诸多异常数据是在多重情境因素的综合作用下而产生的,故针对不同的异常检测目的应选择特定的异常检测方法。总之,如何面向特定领域和检测目的来设计特定的异常检测方法是一个亟需解决的重要研究问题。本文面向Web服务推荐和交通大数据等两个特定领域,提出了两种情境感知的异常检测方法,主要研究内容包括:第一、在Web服务推荐领域,基于海量Web服务调用记录数据,提出了基于真异常值删除的情境感知Web服务个性化推荐算法(Context-Aware Web Services Recommendation of True Abnormal Data Elimination,简称CASR-TADE)。算法通过对用户和服务的相似度挖掘,获取相似情境下Web服务调用记录,同时引入真、假异常值的概念,构建了基于真、假异常值的判断和处理模块,从而为用户推荐个性化的Web服务。第二、在交通大数据领域,基于海量车牌识别数据,提出了情境感知非法营运车辆识别算法。基于620万车辆的3.36亿个过车记录大数据来提取车辆轨迹数据中车辆出现的位置和时间情境提取车辆日常行为特征和持续行为特征,从而利用提取的车辆特征和有监督的异常检测方法构建了非法营运车辆的识别算法。第三,将上述两个算法分别应用于Web服务推荐数据集WSDream和厦门市车牌识别数据集,通过大量实验和验证,分别验证了两个异常检测算法在特定领域的有效性。本文面向特定领域大数据应用的特点和数据特征提出了两种异常检测算法,一方面为面向特定领域的异常检测应用提供了新思路,另一方面为推荐系统、智能交通系统等领域的异常检测应用提供了大数据决策支持。