论文部分内容阅读
隐私保护是数据挖掘领域中一个重要的研究方向,其目的是如何在不泄露私有数据的前提下,使用数据挖掘工具得到精确的挖掘结果。为了有效地保护分布式环境下的隐私,研究人员已经提出了一些隐私保护算法,包括水平分布数据和垂直分布数据,但隐私保护的聚类算法少,且算法复杂度较高、效率低、大多基于k-means算法,仅限于两方或第三方是完全诚信方,数据安全性和可靠性难以满足用户需求。隐私保护数据挖掘常用的方法主要有两种:安全多方计算和数据扰乱。安全多方计算以安全协议为基础,构造分布式环境下隐私保护算法,安全高效的隐私保护协议是安全多方计算方法的基础;而数据扰乱通过改变原始数据的分布来隐藏真实数据的值,高挖掘精度和隐私保护度是其追求目标。本文分别使用安全多方计算和数据扰乱方法,对以上提到的不足之处进行了一些改进,主要贡献如下:1、结合k-means聚类算法和层次聚类算法的优点,构造层次-k-means聚类算法,有效克服了k-means算法因随机选取聚类中心造成聚类结果不确定的缺陷。2、构造求距离、求聚类中心及标准化等安全协议,提出半诚实模型下基于聚类特征树结构的水平分布数据隐私保护的层次-k-means聚类算法。由数据方和第三方共同参与解决了半诚实模型下水平分布数据多方隐私保护的层次-k-means聚类问题。理论证明和实例分析表明了提出的算法的安全性和有效性。3、构造安全比较协议,并以安全标准化及安全比较协议为基础,提出半诚实模型下水平分布数据隐私保护的DBSCAN。理论证明和实例分析表明所提出算法的安全性与有效性,举例说明其应用。4、将基于正交变换的随机扰乱技术应用于垂直分布数据属性间点积计算和数据对象的层次-k-means聚类。选取满足一定条件的随机矩阵来减少误差,理论分析和实验表明这种随机数据扰乱方法能够在恶意方共谋情况下有效保护用户的隐私,扰乱前后的层次-k-means聚类精度损失及点积误差限定在一个较小的范围内。