异构信息网络中的离群点检测研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:cestlaviewuyu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从海量数据中发现潜藏着的、有价值的知识,是一项巨大的挑战。在一些情况下,知道什么样的数据显著区别于数据集中的其它数据,也就是发现离群数据,显得非常重要。现有的离群点检测算法,大多针对的是高维数据、不确定数据、流数据和时间序列数据。直到近些年,才逐渐出现针对信息网络的离群点检测研究工作。信息网络中,尤其是异构信息网络中,节点和边的类型多样使之具有更加复杂的结构信息和语义信息,这给离群点检测带来了更多挑战。本文定义了异构信息网络中关联关系离群的概念,其中,关联关系离群具体表现为网络中节点的关联节点在属性特征和连接特征上存在异常特征。本文还扩展了现有的离群点查询语言框架,使之适用于本文离群点检测研究的需要。为了检测上述关联关系存在异常的节点,本文提出了基于节点关联关系的离群点检测算法(Correlation-based Outlier Detection,CBOut)。CBOut算法引入用户偏好,由用户来决定离群节点类型,并基于用户偏好衡量网络中的节点是否离群。CBOut算法先计算节点间相似矩阵,而后基于吸引子传播聚类算法获取簇集信息,最后对聚类结果中簇集的规模进行判定,从而发现关联关系离群的节点。本文分别在模拟数据集和实际数据集上进行了相关实验验证,表明了 CBOut算法的有效性。针对网络中节点相似度量,本文提出了两类条件下的度量方法,分别是单一度量条件下的节点相似性计算方法与复杂度量条件下的节点相似性计算方法。在单一度量条件下,本文提出了针对多个查询的节点相似性计算优化方法。该方法对网络中的关联节点特征向量采用基于长度的最不常用置换策略进行选择性存储,确保在给定关联节点特征向量存储条数的前提下,减少多个查询中相似性计算的时间消耗。本文在实际数据集上进行了优化算法性能实验的验证,结果符合预期。在复杂度量条件下,本文定义的相似度量方法需要对不同度量条件赋予不同的偏好权重。用户可以根据自己的领域知识,在离群点查询语言中直接指定不同度量条件的偏好权重。当用户不能明确给定不同度量条件的偏好权重时,本文提出了一种偏好权重自适应调整机制,用于获取符合网络特征且具有较高聚类质量的偏好权重值,使用这样的偏好权重值发现的离群点将更能代表数据集本身的特征。本文分别在模拟数据集和实际数据集上对偏好权重自适应调整机制进行了相关测试,结果表明本文提出的偏好权重自适应调整方法确实可以提高数据集的聚类质量,从而提高离群点检测的精度。
其他文献
组合Web服务是网构化软件的核心内容,它的运行正确性直接关系到它的可用性和用户满意度。组合Web服务的执行流程通常用“业务流程执行语言”(BPEL)进行描述。当前实践表明,由
随着互联网技术的迅猛发展,大量信息会在同一时间呈现在我们眼前,海量的信息源能提供丰富的情报信息来源,这些情报越来越受到情报人员的重视,而传统互联网应用无法针对不同用
基因组测序一直是基因组学的核心内容,随着测序技术的产生和发展,人们能在较短时间内获得大量测序数据。测序技术朝着高通量、低成本、高精度的方向发展,积累的测序数据也随之越
随着我国教育信息化建设的不断深入,计算机和网络技术在教育教学中应用也越来越广泛,校园网应运而生。但随着校园网用户规模的不断增加,其管理的难度日益增大,同时也暴露出一
Microsoft Exchange Server是微软公司开发电子邮件服务组件,为用户提供了电子邮件的存取、储存、转发等服务。它支持多种电子邮件网络协议,其中MAPI协议是微软开发的一套负
在计算机视觉中,基于针孔线性摄像机模型的单目,双目视觉系统的研究,已经是计算机视觉的研究热点之一。国际上关于线性摄像机的标定算法研究和图像序列间的线性约束关系的研究也
随着计算机和软件产品应用的日益广泛,我们生活的各个方面对软件产品的依赖也与日俱增。目前软件产品已经应用于一些对软件质量要求更高的重要领域,如民航订票、金融管理和医疗
针对我国现阶段的综合国情,积极开展卫星远程教育有助于推动我国教育事业的发展、缩短城乡间的教育差距。基于DTN(Delay Tolemt Network,延迟容忍网络)的交互式卫星远程教育
近年来,全球通信事业得到了突飞猛进的发展,光纤通信凭借着通信容量大、保密性好、传输损耗低等优点,成为现代通信领域的一个重要支柱。然而随着光缆网络的规模日益扩大,其复杂性
在人类借助“五感”所获得的信息中,大约有80%是来自视觉。对人类而言,视觉信息最容易了解,也最能够信赖。计算机视觉的目的就是利用计算的手段来处理人类的视觉信息和实现对