论文部分内容阅读
随着数据挖掘在电子商务、医疗等的应用越来越广泛,由数据挖掘产生的隐私泄露问题也越来越引起人们的重视。在数据遍布各地的分布式环境下,如何合作进行隐私保护的数据挖掘成为当前研究的热点。目前存在的分布式隐私保护数据挖掘算法在一定程度上保护了隐私,却以较高的计算复杂度为代价。如何在隐私保护度与计算效率上达到较好的平衡,仍然是当前研究的目标。本文通过对隐私保护关联规则挖掘算法的国内外研究与分析,分别设计了水平分布式与垂直分布式环境下的隐私保护关联规则挖掘算法。对于水平分布式环境,针对目前主要采用的基于加密的方法,计算代价高的缺点,提出基于多参数的随机干扰与同态加密相结合的水平分布式隐私保护关联规则挖掘算法(ARPRD)。算法的思想是各站点利用具有高效率与高隐私性优点的多参数的随机干扰技术对原始数据进行扰乱,然后利用常数复杂度的paillier同态加密方法加密局部支持度后发送给数据中心,再由数据中心利用paillier同态加密的性质精确求出全局支持度,最后数据中心根据最小支持度得出全局频繁项集,进而产生关联规则。从理论上分析了ARPRD算法是安全的并具有较好的准确性,并通过实验证明该算法在保护隐私的前提下能提高挖掘精确度及计算效率。对于垂直分布式环境,关键在于如何安全地计算项集的全局支持度。针对目前的安全多方求全局支持度的协议多数只适用于两方参与的情况下,且需要产生大量的随机数与复杂的运算,计算效率不高的缺点,设计了一个利用加法同态加密的简单求和的安全多方求全局支持度协议(SMGSP),并提出基于该协议的实现垂直分布式环境下隐私保护的关联规则挖掘算法(PPVDR)。理论分析表明PPVDR算法保持了挖掘结果的准确性与安全性,并在一定程度上提高了性能。最后通过实验证明了PPVDR算法在保证挖掘结果正确的前提下提高了计算效率。