基于隐私保护聚类的分析与研究

来源 :江苏大学 | 被引量 : 6次 | 上传用户:hznewblue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
隐私保护是数据挖掘领域中一个重要的研究方向,其目的是如何在不泄露私有数据的前提下,使用数据挖掘工具得到精确的挖掘结果。为了有效地保护分布式环境下的隐私,研究人员已经提出了一些隐私保护算法,包括水平分布数据和垂直分布数据,但隐私保护的聚类算法少,且算法复杂度较高、效率低、大多基于k-means算法,仅限于两方或第三方是完全诚信方,数据安全性和可靠性难以满足用户需求。隐私保护数据挖掘常用的方法主要有两种:安全多方计算和数据扰乱。安全多方计算以安全协议为基础,构造分布式环境下隐私保护算法,安全高效的隐私保护协议是安全多方计算方法的基础;而数据扰乱通过改变原始数据的分布来隐藏真实数据的值,高挖掘精度和隐私保护度是其追求目标。本文分别使用安全多方计算和数据扰乱方法,对以上提到的不足之处进行了一些改进,主要贡献如下:1、结合k-means聚类算法和层次聚类算法的优点,构造层次-k-means聚类算法,有效克服了k-means算法因随机选取聚类中心造成聚类结果不确定的缺陷。2、构造求距离、求聚类中心及标准化等安全协议,提出半诚实模型下基于聚类特征树结构的水平分布数据隐私保护的层次-k-means聚类算法。由数据方和第三方共同参与解决了半诚实模型下水平分布数据多方隐私保护的层次-k-means聚类问题。理论证明和实例分析表明了提出的算法的安全性和有效性。3、构造安全比较协议,并以安全标准化及安全比较协议为基础,提出半诚实模型下水平分布数据隐私保护的DBSCAN。理论证明和实例分析表明所提出算法的安全性与有效性,举例说明其应用。4、将基于正交变换的随机扰乱技术应用于垂直分布数据属性间点积计算和数据对象的层次-k-means聚类。选取满足一定条件的随机矩阵来减少误差,理论分析和实验表明这种随机数据扰乱方法能够在恶意方共谋情况下有效保护用户的隐私,扰乱前后的层次-k-means聚类精度损失及点积误差限定在一个较小的范围内。
其他文献
近年来,随着计算机技术、通信技术和互联网技术的飞速发展,以及经济的全球化,虚拟软件研发越来越受到关注。然而,虽然有很多学者对虚拟企业进行了广泛的研究,但从已有文献来
结构化P2P系统使用分布式哈希表(DHT)将数据映射到相应的节点上,从而得到了高效的路由算法。设计新型结构化P2P覆盖网络,必须关注的研究技术有:一:覆盖网络拓扑结构的设计。
对等(Peer-to-Peer,以下简称P2P)网络技术是目前计算机网络研究领域的一个热点,目的是充分利用互联网中所蕴含的潜在资源。P2P覆盖网络是一种采用对等策略计算模式的网络,网络
本文设计并实现了基于非接触式IC卡的油品装车管理系统。该系统主要利用非接触式IC卡的先进技术来监督和管理油品装车过程,对装车业务进行有效、科学的管理。本文首先分析射
图像是人类相互交流与认识世界的重要媒体,具有直观、生动和信息丰富的特点。但是数字图像包含的数据量巨大,计算机很难对其直接进行存储和处理,也不利于图像在互联网上进行传输
当前计算机网络的应用已经相当的普遍,并且深刻的影响了人们的生活方式。网络给人们生活带了便捷的同时,也带来了越来越多的安全问题。网络入侵和攻击问题每天都有发生。如何
随着微电子技术、计算技术和通信技术的进步与发展,一枚硬币大小的电路板上可以集成具有存储、计算、通信和感知能力的元器件,组成廉价的传感器节点。无线传感器网络就是由布
P2P系统的广泛应用推动了当前P2P相关技术的发展,随着应用的不断增加,数据查询已经不再仅限于最初的单一关键字查询或关键字精确匹配。目前,结构化P2P系统中对于复杂查询的支
高分辨率合成孔径雷达(Synthetic Aperture Radar,SAR)自诞生以来便受到相关研究人员的关注,SAR分别使用脉冲压缩技术和合成孔径原理提高了距离分辨率及方位分辨率,进而实现
软件已经成为国防建设与国计民生的重要组成部分,如何提高软件的正确性、可靠性和安全性是计算机软件领域面临的重要挑战。Clarke等人提出的模型检测方法被认为是迄今为止应